企业问答知识库：Rag模型与LangChain等框架介绍

wink-mt

已于 2024-08-19 17:36:44 修改

阅读量897

点赞数 20

文章标签：人工智能 langchain AIGC

于 2024-08-13 19:27:02 首次发布

本文链接：https://blog.csdn.net/weixin_43495982/article/details/140933488

版权

文章目录

RAG介绍

RAG 技术是一种结合了检索（Retrieval）增强（Augmented）和生成（Generation）的方法，旨在解决开放域问答、文档摘要等任务中的信息检索和生成问题。它的工作原理是这样的：
信息检索：首先从一个大型文档库中检索出与问题相关的文档片段。
生成答案：然后使用这些文档片段作为额外的上下文信息，由一个预训练的语言模型生成答案或文本。
优势： 这种方法的好处在于它允许模型访问外部知识库来补充自身可能不具备的信息，从而生成更准确的回答。
应用场景：RAG尤其适用于那些需要高度精确或最新信息的应用场景，例如客服问答系统、文档检索与摘要生成等。通过结合检索到的事实性信息和生成模型的灵活性，RAG能够提供更为丰富和高质量的回答。

为什么需要用到 RAG 呢？
大模型"幻觉"的问题一直存在，RAG 是缓解其幻觉的一个很重要的途径，当然还有其他缓解的方式,SFT 这些。

RAG里程碑

一个重要的里程碑是2020年由谷歌的研究人员发表的论文《Retrieval-Augmented Generation for Knowledge-Intensive Tasks》。（《面向知识密集型 NLP 任务的检索增强生成》）这篇论文详细介绍了RAG模型，并展示了它如何用于知识密集型任务，如开放域问答。这篇论文可以被看作是RAG概念在学术界得到广泛认可的一个重要起点。
这篇论文的主要内容包括以下几个方面：
论文概要
研究背景：传统的语言模型（LM）虽然能够生成连贯的文本，但在处理需要大量外部知识的任务时表现不佳，存在知识不足、难以扩展和修正的问题，并且可能会产生不真实的“幻觉”信息。
解决思路：为了解决这些问题，论文提出了使用检索增强生成（RAG）模型，这种方法结合了预训练的序列到序列（seq2seq）模型和非参数记忆（即检索到的信息），以提高模型在知识密集型任务中的性能。

RagFusion介绍

RAG Fusion 是一种进一步改进的 RAG 方法，它的核心思想是在生成过程中同时考虑模型的内部知识（即模型通过训练学到的知识）以及外部检索到的信息。RAG Fusion 的关键点包括：
多源信息融合：它不仅使用检索到的文档片段，还会考虑模型本身的生成能力，即使没有明确的外部证据支持。
权衡机制：RAG Fusion 通常会有一个机制来决定何时依赖外部知识，何时依赖模型自身的知识。这可以通过注意力机制或其他策略来实现。
更复杂的生成过程：RAG Fusion 的生成过程更加复杂，因为它需要同时处理和整合来自多个来源的信息。

框架	介绍	关注量update2024.8.13
LangChain	是一个开源框架，用于构建应用程序，特别是那些利用语言模型的应用程序。它提供了一系列工具和接口，帮助开发者更容易地构建、部署和优化基于语言模型的应用，如问答系统、聊天机器人等。	90.6k star
Langchain-Chatchat	基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现，开源、可离线部署的 RAG 与 Agent 应用项目。可以免费商用，无需付费。	30.6k star
QAnything	网易出品，是致力于支持任意格式文件或数据库的本地知识库问答系统，可断网安装使用。目前已支持格式: PDF(pdf)，Word(docx)，PPT(pptx)，XLS(xlsx)，Markdown(md)，电子邮件(eml)，TXT(txt)，图片(jpg，jpeg，png)，CSV(csv)，网页链接(html)	11k star
RAGFlow	RAGFlow 是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。兼容各类异构数据源,包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。	14k star
FastGPT	FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！	16.2k star
Haystack	Haystack 是一个端到端 LLM 框架，允许构建由 LLMs、Transformer 模型、矢量搜索等支持的应用程序。无论想要执行检索增强生成 (RAG)、文档搜索、问答还是答案生成，Haystack 都可以将最先进的嵌入模型和 LLMs 编排到管道中，以构建端到端结束 NLP 应用程序并解决案例。	15.1k star
LLAMA_Index	LlamaIndex 是一个用于构建上下文增强 LLM 应用程序的框架,上下文增强是指在您的私有或特定于域的数据之上应用 LLMs 的任何用例。	34.4k star