大模型RAG应用开发之PDF解析工具对比

最新推荐文章于 2024-09-03 21:59:19 发布

深度学习机器

最新推荐文章于 2024-09-03 21:59:19 发布

阅读量379

点赞数 5

分类专栏： RAG 大语言模型优质项目文章标签： pdf 人工智能 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33137873/article/details/141536658

版权

大语言模型同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一汇总

类型	名称	地址	OCR	提取表格内容	保留文本顺序	提取图片	保存成md格式	其他特性
传统PDF解析库	pymupdf	https://github.com/pymupdf/PyMuPDF	❌	✔️	✔️	✔️	❌	● 表格提取 ● 自定义字体
传统PDF解析库	pdfminer	https://github.com/pdfminer/pdfminer.six	❌	❌	✔️	❌	❌	● 版面分析
传统PDF解析库	pdfplumber	https://github.com/jsvine/pdfplumber	❌	✔️	❌	❌	❌	● 表格提取，但存在丢失列的问题
传统PDF解析库	pypdf2	https://github.com/py-pdf/pypdf	❌	❌	✔️	❌	❌	● pdf合并与拆分 ● 添加水印
基于模型的PDF解析一体库	llama-parse	https://github.com/run-llama/llama_parse	✔️	✔️	✔️	✔️	✔️	● 付费API每天有免费额度
基于模型的PDF解析一体库	open-parse	https://github.com/Filimoa/open-parse	✔️	✔️	✔️	❌	✔️	● 文本支持保存markdown和html格式 ●内置表格模型，可自由选择 ●表格带markdown格式
基于模型的PDF解析一体库	deepdoc	https://github.com/infiniflow/ragflow/tree/main/deepdoc	✔️	✔️	✔️	✔️	❌	● 支持版面分析 ●表格带html格式
基于模型的PDF解析一体库	MinerU	https://github.com/opendatalab/MinerU/tree/master	✔️	✔️	✔️	✔️	✔️	● 文本带markdown格式 ● 解析保留中间过程，可用于二次调优 ● 表格提取非常慢，目前效果一般

二总结

非扫描件无OCR要求直接使用pymupdf(fitz)即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。
其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。
llama-parse 中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。
deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU优势在于识别的文本带有markdown格式，因此用于RAG切分文档中可以省去不少功夫。

深度学习机器

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大模型RAG应用开发之PDF解析工具对比

非扫描件无OCR要求直接使用即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。