大模型做图片OCR文字识别和理解 内容结果抽取以及结构化简单对比测试

大模型做图片OCR文字识别和理解 内容结果抽取以及结构化简单测试

测试方法:用同一张扫描的发票图片,以及同样的提问方式来测试各个大模型的OCR准确率,理解问题的能力以及最终返回结果的准确性。

测试数据,方法和手段都有局限性,仅作参考。

测试包含大模型: 百度的文心一言3.5, 字节的豆包大模型, 阿里通义千问2.5 , 百川智能 , 智谱GLM4, 科大讯飞的星火, 月之暗面kimi,  GPT-3.5,  GPT-4o,海螺ai,  Deepseek

Chatgpt

理解了我的需求并且正确的格式返回了,但是中文识别准确率有点低,有很多错误的识别

Kimi

kimi 可以识别但是出现了一个幻觉结果,总体不错

Gtp-4o

理解了我的需求并且正确的格式返回了, 但是有一个错误的幻觉结果

文心一言, 没有理解我的需求并且错误的格式返回了,3.5 输出格式比较混乱,一股脑的输出OCR结果,总体精度勉强,不能用; 智能云的百度的模型广场图像理解只有一个fuyu-8b模型,效果很差。

智谱glm4理解了我的需求并且正确的格式返回了,可以识别并准确输出结果,glm3不行,结果有点混乱且幻觉多不准确;  4的价格0.1/K , 3的价格 0.001/k, batch 4 0.05/K

豆包大模型 网页端无法上传图片来识别和理解;

通义千问2.5

效果嘎嘎好,让我惊艳,理解了我的需求并且正确的格式返回了,甚至给的有点多,还把其他的也一并给出了。

百川智能

理解了我的需求并且正确的格式返回了,简单准确的回复,OCR效果很好

讯飞星火

理解了我的需求并且正确的格式返回了, 发票代码没有给出,合计金额没有含税(这个不是模型的问题,我给的有歧义),其余都准确

海螺ai

理解了我的需求并且正确的格式返回了,但是名称和地址完全是幻觉的错误结果,不可用

Deepseek  网页端无法上传图片来识别和理解;

最终排名 :

第一梯队:通义千问2.5 , 百川智能 , 智谱GLM4

第二梯队:讯飞星火,kimi, GPT-4o

第三梯队:GPT-3.5, 文心一言3.5,海螺ai

豆包大模型, Deepseek, 文心一言4 由于各种原因没有测试到结果。

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云-激光雷达-Slam-三维牙齿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值