大模型做图片OCR文字识别和理解 内容结果抽取以及结构化简单测试
测试方法:用同一张扫描的发票图片,以及同样的提问方式来测试各个大模型的OCR准确率,理解问题的能力以及最终返回结果的准确性。
测试数据,方法和手段都有局限性,仅作参考。
测试包含大模型: 百度的文心一言3.5, 字节的豆包大模型, 阿里通义千问2.5 , 百川智能 , 智谱GLM4, 科大讯飞的星火, 月之暗面kimi, GPT-3.5, GPT-4o,海螺ai, Deepseek
Chatgpt
理解了我的需求并且正确的格式返回了,但是中文识别准确率有点低,有很多错误的识别
Kimi
kimi 可以识别但是出现了一个幻觉结果,总体不错
Gtp-4o
理解了我的需求并且正确的格式返回了, 但是有一个错误的幻觉结果
文心一言, 没有理解我的需求并且错误的格式返回了,3.5 输出格式比较混乱,一股脑的输出OCR结果,总体精度勉强,不能用; 智能云的百度的模型广场图像理解只有一个fuyu-8b模型,效果很差。
智谱glm4理解了我的需求并且正确的格式返回了,可以识别并准确输出结果,glm3不行,结果有点混乱且幻觉多不准确; 4的价格0.1/K , 3的价格 0.001/k, batch 4 0.05/K
豆包大模型 网页端无法上传图片来识别和理解;
通义千问2.5
效果嘎嘎好,让我惊艳,理解了我的需求并且正确的格式返回了,甚至给的有点多,还把其他的也一并给出了。
百川智能
理解了我的需求并且正确的格式返回了,简单准确的回复,OCR效果很好
讯飞星火
理解了我的需求并且正确的格式返回了, 发票代码没有给出,合计金额没有含税(这个不是模型的问题,我给的有歧义),其余都准确
海螺ai
理解了我的需求并且正确的格式返回了,但是名称和地址完全是幻觉的错误结果,不可用
Deepseek 网页端无法上传图片来识别和理解;
最终排名 :
第一梯队:通义千问2.5 , 百川智能 , 智谱GLM4
第二梯队:讯飞星火,kimi, GPT-4o
第三梯队:GPT-3.5, 文心一言3.5,海螺ai
豆包大模型, Deepseek, 文心一言4 由于各种原因没有测试到结果。