前言
场景大致是会上传一个几十页的扫描件PDF,让AI在当中找出我需要的字段,本文会隐去具体行业信息和具体的AI提示词内容,只分享技术相关内容,请见谅。
AI模型选择
针对我们行业的使用场景,我主要测试了GPT、Claude以及国内知名的AI公司产品。
下标中”PDF可“的代表能够识别扫描件PDF。
相似字符有3组测试用例,1组为6与8相似,2组为0与O相似,3组为0与Q相似。
信息匹配应该是有2个组。
文件歧义号码查找,是指一个页面上有两个编号,通过我的提示语去查找正确的那个号码。
平台 |
翻墙 |
能够读取的文件类型 |
横向文件识别 |
特例对比(相似字符识别) |
特例对比(信息匹配) |
特例对比(歧义号码查找) |
速度 |
备注 |
KIMI🐅 |
否 |
PDF可 |
👌 |
3对,第一个6和8都错了,第二个O和0没识别出来。 |
只分了1个组,每组里面2个字段不对,1个字段没找到。 |
找错 |
OK |
|
豆包 |
否 |
PDF可 |
👌 |
1对,第二个O和0没识别出来,第三个压根没识别 |
只分了1个组,每组里面1个字段不对,5个字段没找到。 |
👌 |
OK |
|
GPT |
是 |
扫描版pdf不支持 文件单次最多10 |
/ |
/ |
/ |
/ |
/ |
|