世界上最简单最暴力的 RAG 系统

程序猿李巡天

于 2024-09-18 20:15:10 发布

阅读量305

点赞数 4

文章标签：人工智能 microsoft 知识图谱语言模型自然语言处理

本文链接：https://blog.csdn.net/m0_59235945/article/details/142342556

版权

要搞一个 RAG 系统，hmmm,大模型，向量模型，向量存储这三个是标配，接着呢，为了让效果变得更好, 就要继续加啊加，再来个 rerank 模型，提高下精度，向量存储不够，再加个全文检索，做混合多路召回。瞬间把系统复杂度拉满，然后又要开始做资源隔离，做运维了，保证多系统协同工作，高可用 balabala…

光把系统搞复杂怎么行？应用也要搞复杂！效果还不高，引入llama_index，这玩意提供了上百种存储，召回策略，搞 oneapi, 这玩意封装了无数个大模型接口。

接着发现，开发应用太复杂了，要不再引入个 workflow ，减轻下开发的压力，把一些工作转移给业务？乌拉，成功转移，大家都有活干。

诶，发现和以前大数据时代，实时性好像不太好搞了，得搞个实时系统啊，那得再加kafka,全量批量更新向量数据库继续balabala…

不就是一个获取一些 context，然后让大模型基于这些context 回答用户的一些question ，得到一个答案，就这么简单的一件事，为啥被这些搞软件，搞AI的同学搞成现在这么复杂呀？

于是，我决定，我要搞一个没有向量数据库，没有向量模型，没有检索存储，没有向量数据库，没有llama_index,没有各种封装，

对，只依赖一个大模型就可以用的RAG系统！

一条语句安装系统：

pip install auto-coder

启动模型代理：

easy_byzerllm deploy deepseek-chat --token _api_key

启动兼容 OpenAI 的服务：

auto-coder doc serve \``--model deepseek_chat \``--doc_dir /Users/allwefantasy/projects/llm_friendly_packages/github.com/allwefantasy/byzer-sql

通过 doc_dir 指定你的文档目录。这

在 NextChat 里配置下 API 地址 http://127.0.0.1:8000/v1。

这就是一个带有你私有知识库的 deepseek 了：

我还可以方便的集成到我的业务系统去用：

这就完了？当然不是！我们来讲讲原理。

前面的RAG系统为啥搞那么复杂？因为想当年大模型太弱！速度慢，窗口端（还记得4k的岁月么），一篇文档都放不下！

速度慢，成本高，只能让大模型继续退化成rerank模型，embeding模型，去做数据初级过滤。

现在，大模型已经获得大发展。128K已经是标配，你看人家Kimi动不动几十篇文章放context里去，切啥片？现在7B 快如闪电，deepseek 成本低如狗，我们直接暴力并发让大模型看所有的内容来做，只输出一个token(yes/no)，加上他们家的kv磁盘缓存,不要太贵好么。

所以 auto-coder 新模式，直接使用大模型来做数据过滤（高并发，高输入，低输出），过滤的数据直接以文档为粒度放入到上下文给到大模型做回,效果巨好，远超“片段”模式。不服来PK。

原理讲完了，这就完了？当然不是，这个想法，我刚想清楚，用了十分钟就是实现了，全自动AI生成的代码， prompt 都是AI自己写的：

from typing import Any, Dict, List, Optional, Tuple, Generator``from autocoder.common import AutoCoderArgs``from concurrent.futures import ThreadPoolExecutor, as_completed``from byzerllm import ByzerLLM``from loguru import logger``import json``import os``   ``import byzerllm``   ``   ``class LongContextRAG:`    `def __init__(self, llm: ByzerLLM, args: AutoCoderArgs, path: str) -> None:`        `self.llm = llm`        `self.args = args`        `self.path = path``   `    `@byzerllm.prompt()`    `def _check_relevance(self, query: str, document: str) -> str:`        `"""`        `请判断以下文档是否能够回答给出的问题。`        `只需回答"是"或"否"。``   `        `问题：{{ query }}``   `        `文档：`        `{{ document }}``   `        `回答：`        `"""``   `    `@byzerllm.prompt()`    `def _answer_question(`        `self, query: str, relevant_docs: List[str]`    `) -> Generator[str, None, None]:`        `"""`        `使用以下文档来回答问题。如果文档中没有相关信息，请说"我没有足够的信息来回答这个问题"。``   `        `文档：`        `{% for doc in relevant_docs %}`        `{{ doc }}`        `{% endfor %}``   `        `问题：{{ query }}``   `        `回答：`        `"""``   `    `def _retrieve_documents(self) -> List[str]:`        `documents = []`        `for root, dirs, files in os.walk(self.path):`            `for file in files:`                `if file.endswith(".md"):`                    `file_path = os.path.join(root, file)`                    `with open(file_path, "r", encoding="utf-8") as f:`                        `documents.append(f.read())`        `return documents``   `    `def stream_chat_oai(`        `self,`        `conversations,`        `model: Optional[str] = None,`        `role_mapping=None,`        `llm_config: Dict[str, Any] = {},`    `):`        `query = conversations[-1]["content"]`        `documents = self._retrieve_documents()``   `        `with ThreadPoolExecutor(`            `max_workers=self.args.index_filter_workers or 5`        `) as executor:`            `future_to_doc = {`                `executor.submit(`                    `self._check_relevance.with_llm(self.llm).run, query, doc`                `): doc`                `for doc in documents`            `}`            `relevant_docs = []`            `for future in as_completed(future_to_doc):`                `try:`                    `doc = future_to_doc[future]`                    `if "是" in future.result().strip().lower():`                        `relevant_docs.append(doc)`                `except Exception as exc:`                    `logger.error(f"Document processing generated an exception: {exc}")``   `        `if not relevant_docs:`            `return ["没有找到相关的文档来回答这个问题。"], []`        `else:`            `chunks = self._answer_question.with_llm(self.llm).run(query, relevant_docs)`            `return chunks, []``

然后再让AI写个 jupyter notebook 让我测试下：

然后我就发布了！可以到这里看源码：https://github.com/allwefantasy/auto-coder/blob/master/src/autocoder/rag/long_context_rag.py

最后，这个代码是在 auto-coder里，但是是用 auto-coder.chat 开发的。对每次，auto-coder.chat 自己开发自己！

我是一个坚定的大模型暴力论者，能简单用大模型就解决的，就用大模型解决！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述