7 月初,微软发布最强 RAG 知识库开源方案 GraphRAG,项目上线即爆火,现在星标量已经达到 16.5 k。
究其火爆的原因,主要还是 LLM 虽然强大,但存在一些明显缺点,比如幻觉问题、可解释性差、抓不住问题重点、隐私和安全问题等。而 RAG 恰好可以大幅提升 LLM 的生成质量和结果有用性。
RAG,可以说是 AI 领域一个非常大的创新突破了。它把信息检索和文本生成巧妙结合起来,可以让 AI 更聪明地工作。简单来说,就是在生成答案或内容之前,AI 会先快速搜寻大量的资料库,找到最有用的信息,然后依据这些信息来创造回答或内容。而且相对于其他 AI 相关项目, RAG 的入门门槛更低,为普通开发者提供了更为友好的学习路径。
但是,最近跟不少对 RAG 感兴趣的同学交流下来,才发现大家在学习的过程中可是踩了不少坑,比如:
- 刚开始接触时,缺乏明确的入手点和实践项目,难以实际操作;
- 很少有资料能讲清楚技术的缺点、局限性和适用场景,总要应用到项目才能发现,又得从头来一遍;
- 不知道怎么去考量项目的业务价值,一上来就挑战了高难度的,结果根本坚持不下来;
- 还有一些国内特有场景,总是等到项目落地了才能发现 bug;