基于AI大模型的复杂扫描件PDF信息提取与规整

前言

场景大致是会上传一个几十页的扫描件PDF,让AI在当中找出我需要的字段,本文会隐去具体行业信息和具体的AI提示词内容,只分享技术相关内容,请见谅。

AI模型选择

针对我们行业的使用场景,我主要测试了GPT、Claude以及国内知名的AI公司产品。

下标中”PDF可“的代表能够识别扫描件PDF。

相似字符有3组测试用例,1组为6与8相似,2组为0与O相似,3组为0与Q相似。

信息匹配应该是有2个组。

文件歧义号码查找,是指一个页面上有两个编号,通过我的提示语去查找正确的那个号码。

平台

翻墙

能够读取的文件类型

横向文件识别

特例对比(相似字符识别)

特例对比(信息匹配)

特例对比(歧义号码查找)

速度

备注

KIMI🐅

PDF可

👌

3对,第一个6和8都错了,第二个O和0没识别出来。

只分了1个组,每组里面2个字段不对,1个字段没找到。

找错

OK

豆包

PDF可

👌

1对,第二个O和0没识别出来,第三个压根没识别

只分了1个组,每组里面1个字段不对,5个字段没找到。

👌

OK

GPT

扫描版pdf不支持

文件单次最多10

/

/

/

/

/

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值