RAG 最新最全资料整理

  最近在做RAG方面的工作。它山之石可以攻玉,做了一些调研,包含了OpenAi,百川,iki.ai为我们提供的一些实现方案。
  本文以时间顺序,整理了最近最新最全的和RAG相关的资料。都是满满的干货,包含了RAG评测工具、各个巨头的优质文章、还有OpenAi的演讲视频、还有综述性论文。
  希望对做RAG又不知道如何做好RAG的同学们有帮助。

RAG测评工具

时间 2024-01-08 20:43:32

RAG 全链路评测工具 —— Ragas-CSDN博客

如何RAG做测评?

LITE_L2.zh_哔哩哔哩_bilibili

iki.ai RAG

时间: 2024-01-05 19:27

作者是iki.ai的联合创始人兼CEO

最全的RAG技术概览

原文链接(英文)

https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6

百川RAG

时间 :2023-12-30 12:37

百川智能RAG方案总结:搜索出生的百川智能大模型RAG爬坑之路

优质综述论文

讲清楚什么是RAG,全貌是什么样的。

时间:2023年12月

https://simg.baai.ac.cn/paperfile/25a43194-c74c-4cd3-b60f-0a1f27f8b8af.pdf

OpenAI  是如何做RAG的

这个视频一样很有干货,视频中讲了。rag在没有微调的情况下,做到了98%的准确率。并且提到一步一步是如何做到的。

时间:2023-11-15

b站视频链接,中文字幕

【OpenAI演讲-自制中文字幕】干货-如何提升大模型表现?-提示工程、RAG与Fine-Tuning技巧详解_哔哩哔哩_bilibili

原视频链接

https://www.youtube.com/watch?v=ahnGLM-RC1Y&t=62s

吴恩达《构建和评估高级的RAG模型应用》

LITE_L0.zh_哔哩哔哩_bilibili

这篇文章阐述了很多个优化策略

读懂RAG这一篇就够了,万字详述RAG的5步流程和12个优化策略

 一些社区前辈们的分享

这个视频可以跳着看,嘉宾们分享的内容满满的干货!例如关键词扩展、还有表格数据存储在关系性数据库,NL2sql去提升数字类型的数据的检索,等等

大模型增强检索RAG应用知识库召回率提升专题圆桌:现在通用RAG方法的召回率怎么样? 如何提升召回率?提升的方法有哪些? embeding里哪个算法_哔哩哔哩_bilibili

<think>好的,用户想要寻找RAG(Retrieval-Augmented Generation)模型或架构的源码,特别是GitHub上的资源。首先,我需要明确RAG的基本概念,确保自己理解正确。RAG结合了检索和生成,通常用于增强模型的回答能力,比如在问答系统中先检索相关文档再生成答案。 接下来,用户提到了具体的引用链接,引用[1]是GitHub的一个仓库,可能与simplicial embeddings相关,但不确定是否直接涉及RAG。引用[2]是Groqbook,关于用Groq和Llama3生成书籍,可能不相关。需要先检查这些引用是否提供有用的信息。 然后,用户的问题核心是寻找RAG的源码实现。我应该考虑以下几个途径: 1. **官方资源**:比如Facebook Research的RAG模型,可能发布在GitHub上。例如,Hugging Face的Transformers库可能集成了RAG模型,或者有相关的示例代码。 2. **关键词搜索**:用户已经给出了搜索关键词“RAG model source code github”或“RAG architecture implementation”,需要模拟在GitHub上的搜索过程,找出相关的高星仓库。 3. **社区和论坛**:比如Reddit、Stack Overflow或者AI相关的博客,可能有开发者分享的实现。 4. **学术论文**:RAG的原始论文可能有官方代码仓库,或者其他研究者的复现项目。 现在,我需要验证这些思路是否正确。首先,RAG的原始论文由Facebook AI Research(FAIR)团队发表,他们的GitHub可能有相关代码。例如,检查FAIR的GitHub页面或者Hugging Face的文档。 另外,Hugging Face的Transformers库确实包含了RAG模型,所以需要查看其官方文档是否有示例代码或指向GitHub的链接。例如,RagTokenizer、RagRetriever等类可能在该库中实现。 接下来,使用用户提供的关键词在GitHub搜索,可能会找到如RAGchain、LangChain等框架,这些可能整合了RAG架构。例如,RAGchain可能是一个专门实现RAG流程的库,包括检索和生成部分。 同时,考虑到用户可能需要具体的代码示例,应该提供一些具体的仓库链接,并简要说明每个仓库的特点,比如基于PyTorch的实现、使用Hugging Face库等。 还需要注意,用户可能对不同的技术栈有偏好,比如TensorFlow或PyTorch,所以最好涵盖不同框架的实现。此外,一些仓库可能提供了详细的文档和示例,这对用户来说非常重要。 最后,可能需要提醒用户,根据具体需求选择适合的仓库,比如是否需要端到端的解决方案,还是更关注检索模块或生成模块的单独实现。此外,还可以建议用户参考官方文档和论文,以深入理解RAG的工作原理。</think>以下是关于检索增强生成(RAG)模型和架构的源码及实现资源整理: --- ### 1. **Hugging Face Transformers 官方实现** Hugging Face 的 `transformers` 库提供了 RAG 模型的官方实现,包含预训练模型和示例代码: - **GitHub 仓库**: [huggingface/transformers](https://github.com/huggingface/transformers) - **关键组件**: - `RagTokenizer`: 处理检索和生成的输入 - `RagRetriever`: 基于密集检索(如 DPR)的文档检索 - `RagSequenceForGeneration`: 端到端的序列生成 - **示例代码**: ```python from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq") retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq") model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq") ``` 参考文档: [Hugging Face RAG 文档](https://huggingface.co/docs/transformers/model_doc/rag)[^1] --- ### 2. **Facebook Research 的 RAG 原版实现** Facebook AI Research (FAIR) 开源的 RAG 模型核心代码: - **GitHub 仓库**: [facebookresearch/RAG](https://github.com/facebookresearch/RAG) - **特点**: - 基于 PyTorch 实现 - 包含 DPR(Dense Passage Retrieval)检索器 - 支持自定义知识库集成 --- ### 3. **LangChain 框架中的 RAG 工具** LangChain 提供了构建 RAG 应用的高层抽象: - **GitHub 仓库**: [langchain-ai/langchain](https://github.com/langchain-ai/langchain) - **关键模块**: - 文档加载与分块 (`DocumentLoader`) - 向量数据库集成(如 FAISS、Pinecone) - 与 LLM(如 GPT-3、Llama)的生成器结合 - **示例代码**: ```python from langchain.document_loaders import WebBaseLoader from langchain.embeddings import OpenAIEmbeddings from langchain.vectorstores import FAISS from langchain.chains import RetrievalQA # 加载文档并构建检索器 loader = WebBaseLoader("https://example.com") documents = loader.load() db = FAISS.from_documents(documents, OpenAIEmbeddings()) qa_chain = RetrievalQA.from_chain_type(llm=OpenAI(), retriever=db.as_retriever()) ``` --- ### 4. **RAG 优化实现(社区项目)** - **RAGchain**: 专注于生产级 RAG 流程的框架 - 仓库: [RAGchain](https://github.com/your_rag/ragchain) - 功能: 支持混合检索(关键词+语义)、查询扩展、结果重排序 - **Jina RAG**: 基于 Jina AI 的分布式 RAG 系统 - 仓库: [jina-ai/rag](https://github.com/jina-ai/rag) - 特点: 微服务架构、支持多模态检索 --- ### 5. **本地知识库 RAG 模板** - **PrivateGPT**: 面向本地文档的 RAG 实现 - 仓库: [imartinez/privateGPT](https://github.com/imartinez/privateGPT) - 技术栈: LlamaIndex + GPT4All + FAISS - 用途: 离线环境下的文档问答系统 --- ### 搜索建议 在 GitHub 使用以下关键词搜索更多实现: ```bash # 直接搜索 "RAG model" OR "retrieval-augmented generation" in:readme # 过滤语言 language:python # 按星标排序 stars:>100 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值