实现RAG 使用LangChain实现图检索查询，2024年最新Golang程序员校招蚂蚁金服

最新推荐文章于 2024-08-27 12:01:21 发布

荀经纶

最新推荐文章于 2024-08-27 12:01:21 发布

阅读量814

点赞数 30

分类专栏：程序员文章标签： langchain golang 开发语言

本文链接：https://blog.csdn.net/2301_76224593/article/details/137729955

版权

程序员专栏收录该内容

188 篇文章 1 订阅

订阅专栏

这些数据包含已向SEC提交财务报表(10k、13等)的公司。不同的经理持有这些公司的股票，这些公司属于不同的行业。在财务表格本身中，文本中提到了各种各样的人，我们将文本分解为更小的块，以便向量搜索查询处理。我们将每个文本块放在一个表单中，并创建了一个向量嵌入，该向量嵌入也存储在chunk节点上。当我们运行向量搜索查询时，我们将查询的向量与CHUNK节点的向量进行比较，以找到最相似的文本。

检索查询示例

我使用了一些资源来帮助我理解如何在LangChain中编写检索查询。第一篇是Tomaz Bratanic的博客文章，他写了一篇关于如何使用维基百科文章数据在LangChain中使用Neo4j矢量索引的文章。第二个是来自GenAI Stack的查询，它是使用Docker构建的演示应用程序的集合，并利用包含技术问题和答案的StackOverflow数据集。

所有查询都包含在下面：

Tomaz’s blog post retrieval query

retrieval_query = “”"
OPTIONAL MATCH (node)<-[:EDITED_BY]-§
WITH node, score, collect§ AS editors
RETURN node.info AS text,
score,
node {.*, vector: Null, info: Null, editors: editors} AS metadata
“”"

GenAI Stack retrieval query

retrieval_query=“”"
WITH node AS question, score AS similarity
CALL { with question
MATCH (question)<-[:ANSWERS]-(answer)
WITH answer
ORDER BY answer.is_accepted DESC, answer.score DESC
WITH collect(answer)[…2] as answers
RETURN reduce(str=‘’, answer IN answers | str +
'\n### Answer (Accepted: '+ answer.is_accepted +
’ Score: ’ + answer.score+ '): '+ answer.body + ‘\n’) as answerTexts
}
RETURN '##Question: ’ + question.title + ‘\n’ + question.body + ‘\n’

answerTexts AS text, similarity as score, {source: question.link} AS metadata
ORDER BY similarity ASC // so that best answers are the last
“”"

现在，请注意，这些查询看起来并不完整。我们不会用可选的MATCH或with子句启动Cypher查询。这是因为检索查询被添加到向量搜索查询的末尾。

read_query = (
"CALL db.index.vector.queryNodes($index, $k, $embedding) "
"YIELD node, score "
) + retrieval_query

因此，LangChain首先调用db.index.vector.queryNodes()(更多信息见文档)来查找最相似的节点，并传递(YIELD)相似节点和相似度分数，然后将检索查询添加到向量搜索查询的末尾，以提取额外的上下文。了解这一点非常有帮助，特别是当我们构造检索查询时，以及当我们开始测试结果时!

第二件要注意的事情是，这两个查询都返回相同的三个变量:文本、分数和元数据。这是LangChain所期望的，所以如果没有返回，您将得到错误。文本变量包含相关文本，分数是块与搜索文本的相似度分数，元数据可以包含我们想要的上下文的任何其他信息。

构造检索查询

让我们构建检索查询!我们知道相似性搜索查询将返回节点和分数变量，因此我们可以将这些变量传递到检索查询中，以提取这些相似节点的连接数据。我们还必须返回文本、分数和元数据变量。

retrieval_query = “”"
WITH node AS doc, score as similarity

some more query here

RETURN as text, similarity as score,
{: } AS metadata
“”"

好了，这就是我们的骨架。现在我们想要中间的是什么?我们知道我们的数据模型将在相似性搜索中提取CHUNK节点(这些将是上面WITH子句中的节点AS文档值)。文本块不能提供大量上下文，因此我们想要拉入连接到CHUNK节点的Form、Person、Company、Manager和Industry节点。我们还在NEXT关系中包含一系列文本块，因此我们可以将下一个和上一个文本块拉到相似的文本块周围。我们还将提取所有具有相似分数的块，我们希望缩小范围。

retrieval_query = “”"
WITH node AS doc, score as similarity
ORDER BY similarity DESC LIMIT 5
CALL { WITH doc
OPTIONAL MATCH (prevDoc:Chunk)-[:NEXT]->(doc)
OPTIONAL MATCH (doc)-[:NEXT]->(nextDoc:Chunk)
RETURN prevDoc, doc AS result, nextDoc
}