几款PDF解析工具试用体验


任务目标:
1.中文解析能力强
2.识别表格并能输出为markdown、json等格式。
待补充…

gptpdf

代码:github
使用体验:能识别表格范围,但只能转化为图片,不能进一步提取为markdown等格式。

OmniParse

代码:github
使用体验:使用wsl2+docker进行体验0.1版本,Detecting bboxes完成后进行Recognizing Text,此步骤出错,然后程序退出,网页上的应用提示网络连接错误,docker container exited [137]。去Docker Desktop上排查原因,看了一下不是RAM的原因,查了一圈网上的信息,应该是程序内部出现错误。另外在issues区看到有人说中文解析能力差,sad。在这里插入图片描述在这里插入图片描述
在这里插入图片描述

MinerU

代码:github
使用体验:能分开但是只能提取表格为jpg格式。

Magic-doc

代码:github
使用体验:待更新

Zerox

代码:github
使用体验:虽然表格能提取为markdown,但是中文提取效果不太行。
在这里插入图片描述

合合信息-通用文档解析

网页地址:这里
使用体验:优点:转换得比较准确,可以导出为json、markdown、txt、excel等形式。但是遇到两个小问题,第一部分页面没识别完全,第二不算问题应该是特色,原生的markdown不支持单元格合并的语法,但是Markdown兼容HTML,合合使用通过HTML的方式实现单元格合并,所以对有很多单元格合并的表格解析效果会好很多,相应地,长度也会长很多。
第一个问题图示:绿色框是系统识别的部分,右下角部分未被正确识别。在其他页脚相同的文档里,有部分能正确识别至页尾表格内容中,发生错误的情况目前有两种:第一种识别出来了但是不属于页尾表格,而是另外又识别出来一个表格;第二种识别成表格外文字。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PDF4AI

网址:这里
说明:免费版目前无法试用,只能买专业版。(2024/09/25情况)

GOT-OCR-2.0

网址:这里
使用体验:本人使用魔塔上的demo进行体验,emmmn,效果不太行,要么是输入的表格过于复杂,要么就是还没get到正确使用方式…输入表格图片以后,选择 format multi-crop OCR模式解析,输出是一堆垃圾数据。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值