让大模型不再胡言乱语！2024 Github 上最不能错过的 5 个开源 RAG 框架

最新推荐文章于 2025-03-06 11:25:43 发布

程序猿李巡天

最新推荐文章于 2025-03-06 11:25:43 发布

阅读量4.1k

点赞数 18

文章标签：人工智能 transformer 深度学习 microsoft 知识图谱

本文链接：https://blog.csdn.net/m0_59235945/article/details/140740329

版权

省流版：点击阅读原文，免费体验 Claude 3.5, GPT-4o 等先进大模型！

针对大模型冷不丁出现的幻觉、胡编乱造、信息源过时等问题，检索增强生成（RAG）被视为是最佳的解决办法。

什么是 RAG？

把大模型想象为一位尽职的图书馆管理员，当你每次有疑问的时候，他就会根据你的口述需求，在浩瀚的文本中尽可能的找到最符合你需求的书籍。

而一旦图书馆并没有相关藏书，或内容已过时，我们的这位尽职管理员可不会承认自己的无能，一顿输出猛如虎，结果一看全错。

RAG 是一层额外的“知识外挂”。好比给这位管理员额外增补了相关领域的知识，这样它回答出的问题会变得更加精准。这样你就可以放心的让这位管理员，精准解答其他客户所提出疑惑。

用更学术的角度来解释，RAG 的工作原理是从知识库中检索相关信息，并用来增强 LLM 的输入，从而使模型能够生成更准确、最新且与上下文相关的响应。

图中间的“检索”单元即为 RAG

RAG 框架将检索的系统的优势与生成模型相结合，实现更准确、上下文感知和最新的响应。这种方法有助于克服知识截止日期等限制，并降低 LLM 输出中出现幻觉的风险。

随着对复杂 AI 解决方案的需求不断增长，GitHub 上出现了大量开源 RAG 框架，每个框架都提供独特的特性和功能。

1. Haystack

Github 星数：14,600

地址：https://haystack.deepset.ai/

Haystack 是一个强大而灵活的框架，用于构建端到端问答和搜索系统。它提供了一个模块化架构，允许开发人员轻松地为各种 NLP 任务创建管道，包括文档检索、问答和摘要。Haystack 的主要功能包括：

- 支持多种文档存储（Elasticsearch、FAISS、SQL 等）

- 与流行语言模型（BERT、RoBERTa、DPR 等）集成

- 用于处理大量文档的可扩展架构

- 用于构建自定义 NLP 管道的易于使用的 API

2. RAGFlow

Github 星数：11,600

地址： https://github.com/infiniflow/ragflow

RAGFlow 是 RAG 框架领域的一个相对较新的进入者，但由于其对简单性和效率的关注，它很快就获得了关注。该框架旨在通过提供一组预构建的组件和工作流程来简化构建基于 RAG 的应用程序的过程。RAGFlow 的显着功能包括：

- 直观的工作流程设计界面

- 针对常见用例的预配置 RAG 管道

- 与流行的矢量数据库集成

- 支持自定义嵌入模型

RAGFlow 的用户友好方法使其成为想要快速原型设计和部署 RAG 应用程序而无需深入研究底层复杂性的开发人员的一个有吸引力的选择。

3. Txtai

Github 星数：7500

地址： https://github.com/neuml/txtai

txtai 是一个多功能的人工智能驱动的数据平台，超越了传统的 RAG 框架。它提供了一整套用于构建语义搜索、语言模型工作流程和文档处理管道的工具。txtai 的主要功能包括：

- 用于高效相似性搜索的嵌入数据库

- 用于集成语言模型和其他人工智能服务的API

- 自定义工作流程的可扩展架构

- 支持多种语言和数据类型

4. STORM

Github 星数：14,600

地址：https://haystack.deepset.ai/

STORM（Stanford Open-source RAG Model）是斯坦福大学开发的一个研究型RAG框架。虽然与其他一些框架相比，它的明星数量可能较少，但其学术血统和对尖端技术的关注使其成为对 RAG 技术最新进展感兴趣的研究人员和开发人员的宝贵资源。STORM 值得注意的方面包括：

- 新颖的 RAG 算法和技术的实现

- 注重提高检索机制的准确性和效率

- 与最先进的语言模型集成

- 大量的文档和研究论文

5. LLM-App

Github 星数：3400

地址：https://github.com/pathwaycom/llm-app

LLM-App 是用于构建动态 RAG 应用程序的模板和工具的集合。它因专注于实时数据同步和容器化部署而脱颖而出。LLM-App的主要功能包括：

- 可立即运行的 Docker 容器，用于快速部署

- 支持动态数据源和实时更新

- 与流行的 LLMs 和矢量数据库集成

- 适用于各种 RAG 用例的可定制模板

将 RAG 与 AI 相结合

有大神已将部分 RAG 框架封装为 API，你可以很方便地将 RAG 服务与 AI 相结合起来。Anakin.ai 平台内置了国内外领先的 AI 大模型，你可以通过 Workflow 功能，打造出专属的 AI 工作流！

除了进阶的 Workflow 编排功能，你还可以一站式体验 Claude 3.5、 Gemini 1.5 Flash 以及 Meta 最新推出的 Llama-3。

搭建好的 AI 应用支持 API 调用，可以任意集成至各个 App 内。

文字生成 AI 图片也是必须得有，已支持 Stable Diffusion XL 和 DALL·E 绘图模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述