使用TextIn文档解析工具为RAG开发提供更多可能性

一、前言

目前,海内外各家厂商开发的大语言模型已进入绝大多数使用者与企业用户的视野,展示了很多令人兴奋的可能性。但当企业级应用需求出现,从系统开发到知识库问答产品的真正落地,我们还有一系列技术问题需要解决。

举例来说,被广泛讨论的幻觉问题(大模型在不擅长或不具备相关知识的场景下一本正经的胡说八道)、知识局限问题(难以获取实时信息与非公开数据)、数据安全问题(公司私有数据上传到第三方平台安全性和隐私性难以保障)都是企业应用的阻碍。

根据当前的实践结果,在大模型微调成本高、效果难以保障、模型知识实时更新困难的情况下,RAG是最普遍的选择。

而在现阶段,如何提升RAG效能,基于组织数据与知识存储库提供准确、专业的问答工具,是开发者的重要命题之一。

二、优化思路

基于RAG的运作流程,优化思路可以针对各个环节进行。此前,笔者较为注重嵌入模型与多级索引算法,最近则发现了一个新的优化窗口。

我们知道,构建RAG系统的第一步是知识文档的数据清洗与储备。在企业级应用场景中,我们面对的初始及更新知识源可能来自多种信息渠道,以不同的格式或介质储存。举例来说,需要处理的文件可能有Word文档、电子档、扫描档PDF文件、各类图表、图片等。数据清洗需要去除冗余信息,为后续处理提供清洁准确的知识信息。一般我们使用PDF提取等技术完成文档信息抽取,并采用OCR完成图像识别,由此产生两个问题:其一,如果扫描及图像文件较多,OCR识别将会耗时较长,影响知识文档更新速度;其二,针对版式较为复杂的文件,OCR往往只能按空间位置输出文本,无法还原阅读顺序,对后续处理不够友好。

在实际工作环境中,长文档普遍存在,由于模型一次性处理token数的限制,同时也为了提高检索准确率,我们需要对文档进行切片,并有效找到与用户查询最相关的部分信息。最简单直接的方法即按照固定长度进行分割,将文本分割为固定长度(例如512个tokens),其优势在于消耗更少的计算资源,但更可能破坏语义的完整性。常见的内容分块按规则判断,例如根据标点符号(如句号)进行分割,与长度分割相比,内容逻辑更强,但在长文档内容理解方面,表现仍然差强人意。近期,笔者考虑更进一步的语义分割优化方式,使用各级子标题作为分块依据,最大程度锚定完整内容。优化灵感事实上来源于目前的文档解析工具能够实现的输出结果:自带标题层级的Markdown文本,便于将文档结果按不同的标题段落进行切分。

好的文档解析工具能让分块处理“不打没准备的仗”,为语义分割提供良好基础。而且,作为一种纯文本、轻量级的文本标记语言,Markdown格式具有极好的兼容性和可拓展性,也是LLM在训练时的常用语言,对RAG系统的知识库建设更为友好。

三、优化文档切片需要的解析工具

介绍一下上文提到的这款能够直接批量识别出Markdown格式的文档解析产品,希望能给奋战RAG的C站朋友提供一些帮助。

合合信息的TextIn文档解析工具,相比于市面上大多数产品,主要优势体现在:

1、输出更优质的机器可读文档,Markdown的格式符合阅读顺序,也与大模型的训练数据格式一致,节省大量数据再处理工作;

2、输出文档具备明确的版面和逻辑信息,清晰识别各级标题,版面中的各种细节信息都可以拿下,正确理解和还原复杂排版和各种表格。

这个质量的文档解析结果,将有效提升文档切片优化的可行性,为RAG开发提供相当大的便利。

放一个银行债券募集说明书案例作为参考,左图为原文件,右图为Markdown格式输出。

输入文档 ➡️                                                                                                    输出树状结构

以第二章为例,一级标题、二级标题和正文识别都非常清晰。

单页截图

四、工具使用方式

文档解析是合合信息旗下的TextIn智能文字识别产品之一,按官网的介绍,他们的产品是针对大模型应用场景开发的,目标是充分赋能大语言模型的的数据清洗和文档问答任务。

试用链接:https://www.textin.com/market/detail/pdf_to_markdown#advantage

对开发者来说,如果需要用代码调用,也有对应的接口文档内容:

https://www.textin.com/document/pdf_to_markdown

目前,这款产品现在还处于内测阶段,给每位开发者赠送每周7000页的额度福利,有需要的朋友可以在官网咨询合合团队或通过“合研社”公众号领取。

  • 46
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 21
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

几何心凉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值