开源的 RAG 和 workflow 技术对比调研

 一、先来了解一下开源的技术有哪些,怎么样

我自己就是做RAG工作的,但是还是想关注一下开源的技术做到了什么程度。

所以调研了很长时间,也体验了一下。这里写一篇文章来分享一下结果。

我用五一的假期时间,来做调研,看代码,做测试,写文章。为大家贡献资料。

这里先说一下自己的感受吧:这些开源的技术,还是各有所长的。应该结合融合到一起,才能更好的完成我们的生产需求。但是开源的文档解析最多能做到60的效果。

1.1 分类:rag

1.1.1 Qanything 

GitHub - netease-youdao/QAnything: Question and Answer based on Anything.

star数量:9K

社区活跃程度:24年年初开源的。刚开始活跃,现在社区不活跃(社区群没人说话,github上提的Issues 没人处理)

优势:个人觉得部署文档,相对齐全一些。代码质量也好一些。我个人在mac book上已经踩了一遍坑了。它的文档解析也是用ocr做的。此外优化了embedding模型,还有rerank模型。

劣势:资源占用挺多的。内存大概是20多个G。小内存还怕跑不起来(这里我已经是使用openAi来做回答了,如果再加上一个模型,需要的资源就更多了)。

文档GitHub - netease-youdao/QAnything: Question and Answer based on Anything.

1.1.2 RAGflow

GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.

star数量:6.3K

社区活跃程度:24年大概3月份开源的。社区活跃,社区群交流的人比较多。官方群有4个。虽然比Q anything晚,但是起势很猛。

优势:官方最引以为豪的是文档解析。我自己也看了代码,一方面使用到了OCR来解析,另一方面。做了非常多的雕花的工作。这是其他几个都没有的优势。

劣势:个人觉得文档没有那么全。

文档:ragflow/README_zh.md at main · infiniflow/ragflow · GitHub

1.2 分类:rag + workflow + tools (和扣子 coze 类型)

1.2.1 Dify

GitHub - langgenius/dify: Dify is an open-source LLM app development platform. Dify's intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototype to production.

star数量26K

社区活跃程度:社区活跃,社区群交流的人比较多。现在官方全已经有7个了。

优势文档非常齐全。应该是最早开源的。工具非常齐全。它的代码的扩展性,是非常好的。整体不强依赖模型。但是支持了非常多的模型部署工具的接入。还支持工作流,有非常多的tools,并且我们想要接入自己的工具,也非常方便。代码扩展性极好,且轻量级

劣势:可能不是很关注RAG的效果,文档解析差,没用到模型,也就是说扫描件是无法处理的。

文档欢迎使用 Dify | 中文 | Dify

1.2.2 fastGPT

GitHub - labring/FastGPT: FastGPT is a knowledge-based platform built on the LLMs, offers a comprehensive suite of out-of-the-box capabilities such as data processing, RAG retrieval, and visual AI workflow orchestration, letting you easily develop and deploy complex question-answering systems without the need for extensive setup or configuration.

star数量:13K

社区活跃程度:社区活跃,社区群交流的人比较多。

优势: 文档非常齐全。工具非常齐全。它的代码的扩展性好。整体不强依赖模型。但是支持了非常多的模型部署工具的接入。还支持工作流,有非常多的tools。fastGPT的商业化道路走在了前边,这是我见到的商业化走的最成熟的一个。

劣势:可能不是很关注RAG的效果,文档解析差,没用到模型,也就是说扫描件是无法处理的。

文档文档 | FastGPT

二、总结

这里先说一下自己的感受吧:这些开源的技术,还是各有所长的。应该结合融合到一起,才能更好的完成我们的生产需求。

我们在看它的时候,应该带有目的,是想要拿来就用,还是想在上边继续做扩展。还是说学习开眼技术的代码的扩展性,还是文档能力。个人觉得dify的扩展能力是最好的,文档也是最全的,可能得益于开源的时间比较长。

  • 24
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值