RAG之PDF文件中多种格式数据解析实践

▼最近直播超级多,预约保你有收获

72b60ad0bc372bf2245fc4de3af7ee36.png

RAG 检索增强生成由2部分构成:一是离线对异构的数据进行数据工程处理成知识,并存储在知识库中,二是基于用户的提问进行知识库的检索增强。如下图所示:

eb5ff08aa49e920f4dba8c803fa3927e.png

其中最关键的一个环节是 PDF 格式的文件如何提取成知识,下面详细剖析。

1

PDF 文件中文本数据如何提取?

能够处理文本提取的 Python 库有多个,其中较为知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在这些库中,PyMuPDF 因其出色的文本提取能力而备受推崇。特别是在处理双栏布局等复杂格式的 PDF 文件时,PyMuPDF 能够最大程度地保留 PDF 的阅读顺序,这对于确保文本内容的准确性和完整性至关重要。

下面我们将以双栏布局的 PDF 文件为例,展示使用 PyMuPDF 库进行文字提取的效果。

d3e14922375ddb4f96bb70c7e1f75f29.png

进行文本提取的代码如下所示:

a07fe6df11548ee190caca72f3aeeefa.png

打印的结果如下所示:

9a1590ade61c8d6939ce596d750b09fb.png

2

PDF 文件中表格数据如何提取?

在处理表格提取任务时,camelot 和 tabula 是两个备受推崇的库。它们各自在提取有线表和少线表(即含有较少分隔线的表格)方面展现出了良好的效果。接下来,我将分别以有线表为例,简要介绍 camelot库的使用。

camelot 是一个强大的 Python 库,专门用于从 PDF 文件中提取表格数据。对于有线表,即表格中包含明确分隔线的表格,camelot 表现出色。通过指定 PDF 文件路径和表格所在的页面区域,camelot 能够准确地识别并提取出表格中的数据,比如有线表原始数据:

9b27e324be795c5f9c7d2b61990c8555.png

使用 camelot 提取有线表的示例代码如下:

feeecfef0cbd156bbb8ba2049de31c06.png

表格数据的打印结果如下所示:

f7e34674653222408af4241b25b12713.png

3

扫描 PDF 的文本数据如何提取?

在从扫描的 PDF 文件中提取文本时,使用开源的 PaddleOCR,并且用 PPStructure 做版面的分析。我们还是以下面的 PDF 文件为例,不过这是 PDF 文件的扫描版。

c0ee7ace5b17bf690351d3614a44bf08.png

提取文本的代码如下:

b35bebc5e4c37074f379c24397ec3400.png

ad26d22b18afeb2bdacffcc10fbbe0f2.png

eeef518f0dc0ec06af872e8e1d840753.png

得到的结果如下所示:

d0033c28e714784ddea0c53dc228d013.png

图中的左边是根据给出的版面分析结果画出来的,可以看出对双栏 PDF 做了正确的解析。右边是根据识别出来的文本以及文本的坐标画出来的,可以看出基本上和左边的版面以及内容是一致的。

为了帮助同学们彻底掌握 AI 大模型 Agent 智能体、知识库、向量数据库、 RAG、微调私有大模型的应用开发、部署、生产化,今天我会开场直播和同学们深度剖析,请同学们点击以下预约按钮免费预约

4

领取 AI 大模型学习资料

1c0a3a1a60a8927c8fb113d9670e067d.png不会吧,都2024年了,还有人在网盘、B站上爬学习资源?

fb7a475fb8ade492fc86debd78a06b80.png今天给大家搞到的是一份大厂内部都在用的『AI 大模型学习资源』

▶形式:直播公开课

费用:原价299,本号用户0元白嫖

内容:大模型原理、Agent、LangChain、Spring AI、RAG、向量数据库、知识库、私有大模型、算力评估...

扫码预约报名

👇『AI 大模型学习资源』👇

堪称资源界的YYDS!48f9fe5bee19680c4690cfcbfed4c7d2.png

“得此资源,堪比1000G网盘资源”

👇👇👇

71cf30d4b529e34b4e0a0eee1e48a596.png

本期名额有限

7932b170dbe334b6a332398c474cffda.gif

5

领取《AI 大模型技术知识图谱

12f218730ac1ba0a7b2f32b771f45f93.png

这份业界首创知识图谱和学习路线,今天免费送了!

第一步长按扫码以下视频号,你身边需要一个 AI 专家。

44f3c6e37300f197df3912c9d1260e24.png

第二步:点击"关注按钮",就可关注。

e7fe9dade8ce2ea07ffff88c69024de5.jpeg

第三步:点击"客服“按钮,回复知识图谱即可领取。

8bed1d4fe56936f67db1bba45bb2f885.jpeg

 6

每日精选 AI 大模型知识

END

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值