基于AI大模型的复杂扫描件PDF信息提取与规整

JIZQAQ

已于 2024-11-01 17:00:22 修改

阅读量3.7k

点赞数 29

分类专栏： AI 文章标签： pdf 人工智能

于 2024-11-01 16:56:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43106115/article/details/143434628

版权

前言

场景大致是会上传一个几十页的扫描件PDF，让AI在当中找出我需要的字段，本文会隐去具体行业信息和具体的AI提示词内容，只分享技术相关内容，请见谅。

AI模型选择

针对我们行业的使用场景，我主要测试了GPT、Claude以及国内知名的AI公司产品。

下标中”PDF可“的代表能够识别扫描件PDF。

相似字符有3组测试用例，1组为6与8相似，2组为0与O相似，3组为0与Q相似。

信息匹配应该是有2个组。

文件歧义号码查找，是指一个页面上有两个编号，通过我的提示语去查找正确的那个号码。

平台	翻墙	能够读取的文件类型	横向文件识别	特例对比（相似字符识别）	特例对比（信息匹配）	特例对比（歧义号码查找）	速度	备注
KIMI🐅	否	PDF可	👌	3对，第一个6和8都错了，第二个O和0没识别出来。	只分了1个组，每组里面2个字段不对，1个字段没找到。	找错	OK
豆包	否	PDF可	👌	1对，第二个O和0没识别出来，第三个压根没识别	只分了1个组，每组里面1个字段不对，5个字段没找到。	👌	OK
GPT	是	扫描版pdf不支持文件单次最多10	/	/	/	/	/

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。