大家觉得做一个大模型检索增强生成(RAG)系统,最难搞定的是哪部分工作?

最近两个月的业余时间参与了几个RAG应用开发,最头疼的两个问题是:数据清洗和权限区分。

目前企业的数据可能有一半以上都是半结构化数据。一个word/pdf文档里包含文字、图片、表格等信息司空见惯,一个PPT文件里全是带文字的图解也是常有的事。主流的数据清洗方式很难通吃多样的半结构化数据,很大情况下还是需要人工审核每一个文档,把一次性处理做不好的挑出来重新处理。

这里是主流的文档预处理框架:

框架名称主要功能支持的文档格式输出格式特点
MinerU将 PDF 转换为机器可读格式,如 Markdown、JSON,支持公式和表格的识别与转换。PDFMarkdown、JSON、LaTeX、HTML支持复杂公式解析,适用于科技文献的符号转换。
Marker提取 PDF 文档内容,支持文本、表格和图像的解析。PDFMarkdown、JSON能将表格解析为 Markdown 结构,但在复杂表格处理上可能存在问题。
PaddleOCR基于深度学习的 OCR 系统,支持多语言文本检测和识别。图片、PDF文本、JSON具备文字识别和版面分析能力,但缺乏必要的后处理步骤。
Unstructured处理多种文档格式,提取文本和元数据,适用于非结构化数据的解析。PDF、DOCX、PPT、HTML 等JSON、文本支持多种文档格式的解析,适合处理非结构化数据。
Zerox基于 GPT 的 OCR 工具,将 PDF、DOCX 等文件转换为 Markdown 格式。PDF、DOCX、图像Markdown零配置,易于使用,支持批量处理,转换速度快。
Docling多格式文档解析和导出工具,支持高级 PDF 理解和 OCR 功能。PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc、MarkdownHTML、Markdown、JSON支持多种文档格式的解析,易于与 LlamaIndex 和 LangChain 集成。
OmniGen文档解析和生成工具,支持从多种格式的文档中提取内容并生成结构化数据。PDF、DOCX、PPTX、HTML 等JSON、XML、Markdown支持多种文档格式的解析,提供结构化数据输出,适用于数据提取和内容生成。

然后就是服务于大中型企业的数据本身可能存在权限层级和不同架构间的区分。重排序往往只能把检索召回的块基于query重新排序。但这解决不了两个问题:数据存在语义之外的优先级,用户也存在访问权限的隔离需求。

比如某个企业的总部制定的章程和分公司的章程本身存在某些冲突,现实中默认分公司员工按照分公司的章程,不区分用户是谁而返回的结果可能就是不适用的错误答案。

至于解决管理层和普通员工之间的权限,最直接的办法是知识库分离。但是这也并不是什么好方法,因为企业中存在授权操作,此时就需要在知识库和应用之外增加一套额外的权限准入逻辑。

市面上现有的开源RAG各有优缺点,目前看非结构化文档召回做的最好的是RAGFlow,尤其是知识库的直接搜索功能很惊艳。但是它在嵌入其他生态上提供的接口相对单一。其他几家要么是生态功能更全,要么是接口更丰富,要么Rerank做的好……简言之就是甘蔗没有两头甜,只有全试过了才知道具体哪个框架适用什么样的落地场景。

框架名称文档切分召回检索重排序
RAGFlow强调文档的精细化解析,能够从复杂格式的非结构化数据中提取信息,提供基于模板的文本切片功能,文本切片过程可视化,支持手动调整。基于多路召回,融合重排序,提供可靠的问答和有理有据的引用。兼容各类异构数据源,支持丰富的文件类型,包括 Word 文档、PPT、Excel 表格、PDF 等。提供有理有据的答案,降低幻觉(hallucination),答案提供关键引用的快照并支持追根溯源。
FastGPT提供自动数据预处理,支持手动输入、直接分段、LLM 自动处理和 CSV 等多种数据导入途径,自动对文本数据进行预处理、向量化和 QA 分割。支持混合检索和重排,提供强大的 RAG 引擎,能够高效地处理和检索大量数据。采用直观的可视化界面,支持多种数据导入方式,自动化工作流程编排,提升检索效率。支持工作流编排,基于 Flow 模块设计,提供简易模式和工具调用,提升重排序能力。
QAnything文档处理能力一般,主要依赖于现有的文档解析工具,未强调特定的文档切分技术。强调 Embedding 与 Rerank 模型的联合使用提升文档召回质量,Rerank 模块设计优秀。采用 Embedding 技术进行检索,结合 Rerank 模型提高检索精度。Rerank 模块设计优秀,能够有效提升文档召回质量。
MaxKB提供简单易用的界面,支持多种数据格式的导入和导出,内置知识库管理系统,便于用户管理和利用知识资源。内置知识库管理系统,支持多种数据格式的导入和导出,便于用户管理和利用知识资源。支持多种数据格式的导入和导出,内置知识库管理系统,便于用户管理和利用知识资源。提供高效的 Workflow 设计,支持拖拽式操作,使得非技术人员也能快速上手。
Dify功能完善,支持从 PDF、PPT 和其他常见文档格式中提取文本,提供丰富的预设模板和集成工具。支持跨知识库召回,提供丰富的召回模式,适用于复杂业务逻辑和数据处理需求。提供丰富的预设模板和集成工具,支持多种检索模式,适用于复杂业务逻辑和数据处理需求。支持工作流编排,提供丰富的预设模板和集成工具,适用于复杂业务逻辑和数据处理需求。

最后还有一个难点其实是测试评判部分。因为企业内部数据几乎不会存在一个现成的测评数据集,所以这个也得自己做,而且效果的评判依旧逃不开主观感受。比如开发者以为的详细解答可能在用户看来就是长篇废话,而开发者以为的精炼简要可能在用户看来就是等于没答……

落地需求就不能纯技术论了,需要人工干预的地方不少,毕竟最终的用户还是大活人。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值