RAG之PDF文件中多种格式数据解析实践

▼最近直播超级多,预约保你有收获

72b60ad0bc372bf2245fc4de3af7ee36.png

RAG 检索增强生成由2部分构成:一是离线对异构的数据进行数据工程处理成知识,并存储在知识库中,二是基于用户的提问进行知识库的检索增强。如下图所示:

eb5ff08aa49e920f4dba8c803fa3927e.png

其中最关键的一个环节是 PDF 格式的文件如何提取成知识,下面详细剖析。

1

PDF 文件中文本数据如何提取?

能够处理文本提取的 Python 库有多个,其中较为知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在这些库中,PyMuPDF 因其出色的文本提取能力而备受推崇。特别是在处理双栏布局等复杂格式的 PDF 文件时,PyMuPDF 能够最大程度地保留 PDF 的阅读顺序,这对于确保文本内容的准确性和完整性至关重要。

下面我们将以双栏布局的 PDF 文件为例,展示使用 PyMuPDF 库进行文字提取的效果。

d3e14922375ddb4f96bb70c7e1f75f29.png

进行文本提取的代码如下所示:

a07fe6df11548ee190caca72f3aeeefa.png

打印的结果如下所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值