大模型做图片OCR文字识别和理解内容结果抽取以及结构化简单对比测试

最新推荐文章于 2025-05-22 16:48:11 发布

点云-激光雷达-Slam-三维牙齿

最新推荐文章于 2025-05-22 16:48:11 发布

阅读量7k

点赞数 11

CC 4.0 BY-SA版权

分类专栏：点云及图像-免费文章标签： ocr 点云算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a394467238/article/details/139064462

点云及图像-免费专栏收录该内容

75 篇文章

订阅专栏

大模型做图片OCR文字识别和理解内容结果抽取以及结构化简单测试

测试方法：用同一张扫描的发票图片，以及同样的提问方式来测试各个大模型的OCR准确率，理解问题的能力以及最终返回结果的准确性。

测试数据，方法和手段都有局限性，仅作参考。

测试包含大模型：百度的文心一言3.5，字节的豆包大模型，阿里通义千问2.5 ，百川智能，智谱GLM4，科大讯飞的星火，月之暗面kimi, GPT-3.5, GPT-4o，海螺ai， Deepseek

Chatgpt

理解了我的需求并且正确的格式返回了，但是中文识别准确率有点低，有很多错误的识别

Kimi

kimi 可以识别但是出现了一个幻觉结果，总体不错

Gtp-4o

理解了我的需求并且正确的格式返回了, 但是有一个错误的幻觉结果

文心一言，没有理解我的需求并且错误的格式返回了，3.5 输出格式比较混乱，一股脑的输出OCR结果，总体精度勉强，不能用；智能云的百度的模型广场图像理解只有一个fuyu-8b模型，效果很差。

智谱glm4理解了我的需求并且正确的格式返回了，可以识别并准确输出结果，glm3不行,结果有点混乱且幻觉多不准确； 4的价格0.1/K , 3的价格 0.001/k, batch 4 0.05/K

豆包大模型网页端无法上传图片来识别和理解;

通义千问2.5

效果嘎嘎好，让我惊艳，理解了我的需求并且正确的格式返回了，甚至给的有点多，还把其他的也一并给出了。

百川智能

理解了我的需求并且正确的格式返回了，简单准确的回复，OCR效果很好

讯飞星火

理解了我的需求并且正确的格式返回了，发票代码没有给出，合计金额没有含税（这个不是模型的问题，我给的有歧义），其余都准确

海螺ai

理解了我的需求并且正确的格式返回了，但是名称和地址完全是幻觉的错误结果，不可用

Deepseek 网页端无法上传图片来识别和理解;

最终排名：

第一梯队：通义千问2.5 ，百川智能，智谱GLM4

第二梯队：讯飞星火，kimi, GPT-4o

第三梯队：GPT-3.5, 文心一言3.5，海螺ai

豆包大模型， Deepseek，文心一言4 由于各种原因没有测试到结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

点云-激光雷达-Slam-三维牙齿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。