LSG三叉戟：大语言模型 + 搜索 + 知识图谱-CSDN博客

本文链接：https://blog.csdn.net/vastgrassland/article/details/134820695

随着大语言模型技术的崛起，原本专注于提供知识图谱和智能搜索服务的平台公司怎么应对？我们通过一些相关公司的官网和互联网搜索去了解一下。

搜索图谱在两边，人工智能放中间
我们看到有一批公司，非常积极主动地拥抱AI的新发展，将AI深入地引入自己的产品和方案。比如：

Elastic

截图：Elastic官网中文主页（12.3.2023）https://www.elastic.co/cn/

Elastic将AI放在了其官网主页的正中央。在视频演说中，Elastic的CEO Ashutosh Kulkarni首先认为"生成式AI和大语言模型从根本上来说是一种从信息系统中获取信息的更人性化、更直观的方式。" 但是，他认为Elastic的机会在于企业从根本上需要的是“隐私优先”的信息获得方法。所以，Elastic的基本方法是“企业借助Elastic采集私有数据，并实现毫秒级的全文搜索，并使用向量搜索功能为大语言模型提供相关度最高的私有背景信息，让大语言模型能够提供直观的、以用户为中心的、令人惊叹的聊天体验。”

Ashutosh描述的就是典型RAG（Retrieval Augumented Generation)的场景。在五月份发布的ElasticSearch搜索引擎产品中，Elastic在同业中相对较早地置入了向量数据库、集成大语言模型和LangChain等第三方大语言模型开发工具的关键能力，发布了”为 AI 变革提供高级搜索能力“的Elasticsearch Relevance Engine™ 。这使得使用ElasticSearch的用户几乎立刻就具备了在企业内部的数据和文档尚实现类ChatGPT能力的可能。

Neo4j

无独有偶，图数据库技术提供商Neo4j也把生成式AI放到了中心位置。

截图：Neo4j官网主页（2023.12.4），也是AI摆中间 https://neo4j.com/

Neo4j为图数据库和知识图谱找到的几条理由：

1. 使大语言应用更加准确：在知识图谱上进行检索增强生成 (RAG)，使 LLM 返回图谱中基于经过验证的事实，而不是大语言模型自身的幻像。知识图谱被认为是对开发人员友好模式轻松添加和更新数据、索引和 RAG 源的方式，知识的结构无需重新设计。图结构使得找到多跳问题的事实答案成为可能。在文档中，多条问题的答案往往分散于文档各处，甚至于不同文档中。而在图谱里，他们是通过关系和节点相联的。

截图：Neo4j: Accurate: Query Knowledge Graphs with LLM Application，Neo4j知识图谱被作为RAG搜索源加入了大模型应用的工作流中

2. 知识图谱提供语境上下文：知识图谱通过节点和关系提供数据之间明确的上下文语境（Context)，而矢量搜索则使用语义提供隐式响应。Neo4j 则同时提供显式和隐式响应，以便为用户提供最佳的答案。将嵌入矢量存储为节点属性可以同时为用户提供完整的“隐式上下文”以及知识图谱原生的显式响应。

截图：Neo4j: Contextual: Knowledge Graphs with Vector Search for Grounding LLMs，结合矢量嵌入的隐式上下文和图谱查询的显式结果

3. 可解释的答案：用户可以通过Neo4j 的知识图谱可视化查看结果数据并与之交互，以更好地了解结果中的各实体和概念等是如何相连接的。

截图：Neo4j: Explainable Graph Models 逻辑清晰的图谱结构和节点间的关系让结果总是具有可解释性

Neo4j还在GitHub开源了他们的一些实验性工作，包括：如何用大语言模型生成Neo4j的查询语言Cypher脚本进行操作和查询；用大语言模型对Neo4j知识图谱进行分析总结；以及如何通过大模型在非结构化文档上构建Neo4j知识图谱等工作。

截图：Neo4j NaLLM开源项目（2023.12.04）https://github.com/neo4j/NaLLM

NebulaGraph

最近NebulaGraph也在发布Graph RAG、自然语言驱动数据库查询（Text2Cypher）以及与矢量搜索结合的工作。

截图：NebulaGraph.io主页，将与大语言模型结合的工作放在了中央和顶部（https://www.nebula-graph.io/，2023.12.04）

以我为主，为我所用

有一批搜索和图数据库技术供应商，迈出的步子似略小一些，纷纷将大语言模型用于简化构建查询语言，提高其工具的可用性方面。比如：

TigerGraph

比如TigerGraph与LangChain集成。LangChain将LLM包装成一个代理，当询问问题时，代理执行流程。首先，使用MapQuestionToSchema工具将问题映射到图的模式(Schema)进行标准化。标准化问题被传递到GenerateFunction工具，该工具填充正确的pyTigerGraph函数调用以在数据库上运行。最后，该函数调用在ExecuteFunction工具中运行。这会从数据库的 REST 端点返回 JSON 响应，然后由代理进行解析并以自然英语给出答案。

截图：TigerGraph和LangChain集成问答的例子，详见https://www.tigergraph.com/blog/integrating-tigergraph-and-llms-for-generative-ai/

Stardog

和Neo4j、NebulaGraph、TigerGraph和其他的属性图(Property Graph)技术公司不同，Stardog是基于更为复杂的语义图的图数据库技术公司。他们在5月份也推出了名为Stardog Voice的工具，在Graph RAG过程中，用户可以通过自然语言对话，生成知识图谱查询，矢量Embedding匹配和LLM提示，实现对整个任务的交互、配置和的完成。

截图：Stardog VoiceBox的架构，https://www.stardog.com/blog/how-ai-uses-stardog/

只听楼梯响，不见人下来/我自岿然不动，任他东西南北风

我们还看到一些公司。似乎AI的发展没有对这些公司的策略造成影响，也可能是"心有余而力不足"。当然，更大的可能是很多的变化并没有在互联网上表象地呈现，我们的调查过于简略，没有能够洞察到。

总之，AI和大语言模型的发展对智能搜索和知识图谱技术供应商正在造成深刻的影响。他们往往从RAG（检索增强生成）的场景出发，通过（1）结合矢量数据库匹配Embedding能力；（2）用大模型帮助生成复杂图谱查询以自动化或降低脚本生成的难度；和（3）与LangChain等计算框架集成，将自己嵌入大模型应用流程等具体方法，与大语言模型进行集成。

从数据管理、数据隐私、真实知识、领域知识等角度来看，搜索和知识图谱技术与大语言模型技术有很强的互补性，特别在企业应用方面，三种技术应能相辅相成，配合使用，是LSG三叉戟（LLM，Search and Knowledge Graph)。