语言模型测试系列【5】

本文详细比较了八种语言模型(如文心一言、通义千问等)对PDF文档内容的理解和回答准确性,发现KimiChat和通义千问在综合表现上更优,特别是KimiChat在结合指标分析和提供额外结论方面胜出。
摘要由CSDN通过智能技术生成

语言模型

  1. 文心一言
  2. 星火认知大模型
  3. 通义千问
  4. 豆包
  5. 360智脑
  6. 百川大模型
  7. 腾讯混元助手
  8. Kimi Chat

今天我要测试的素材来自一份pdf的报告文件,这是一个测试文件,内容已调整,不是真实数据,仅供测试使用,文档中存在文本、制表符等内容,用来测试这八个语言模型对pdf文档的理解能力,及对应的回答准确性。

提问及回答

问题
这里提问分成三部完成,因为数据不是公开数据,所以第一步需要做填喂操作,现将文件内容填喂给语言模型。后面才进行提问环节。
第一步:测试数据.pdf + 文本“这是一份来自中国医科大学南院区污水检验评估单,记录的是3月份的评估报告,请阅读并记住。”
在这里插入图片描述
第二步:提问一“请告诉我中国医科大学南院区的调节池池容是多少?”,提问二“请告诉我中国医科大学南院区的注意事项”,提问三“工艺评估是否合格?”
说明:为了保证回答的真实性,后面对于每个模型的回答过程均截图放进来对比。

文心一言

因为今天文心一言给我提供了免费试用文心大模型4.0工具版的权限,所以从今天开始到试用结束前,均使用文心大模型4.0工具版进行测试对比了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

讯飞星火认知大模型

在这里插入图片描述

通义千问

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

豆包

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

360智脑

没有添加文档的位置,也有可能没给我开放功能,不过我再百度上搜到了一则文章是关于长文本分析的,将来应该也会实现,但当前是无法测试了。
360智脑宣布正式内测500万字长文本处理功能 2024-3-25

百川大模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

腾讯混元助手

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Kimi Chat

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对比分析

这个测试过程开始只准备了两个问题,但在编写文章的时候,觉得不够全面,就新增了提问三,省略了院区的内容,直接针对指标进行提问,果然测出一个问题

从上面几个大模型的回答,从主观意识上对比如下:

模型名称回答内容
文心一言4.0有思考和行动过程,可以分析出文档数据并记住,回答准确
讯飞星火认知大模型不支持
通义千问能够阅读并记忆文档内容,并输出总结内容,列出部分指标数据,回答准确且分析全面
豆包文档记忆缺失,回答有错误
360智脑不支持
百川大模型能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确
腾讯混元助手能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确
Kimi Chat能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确且分析全面

总结

通过八大模型的回答情况,对比结构如下:
通义千问Kimi Chat的整体略胜其他语言模型,在“提问二”的回答中,可以做到将指标数据与注意事项的内容结合分析,这点非常优秀。后来新增的“提问三”中,Kimi Chat在准确回答结果的同时,还给出了其他结论内容供参考,这点略胜一筹,所以我觉得这次测试的冠军为“Kimi Chat”,亚军为“通义千问”。

文心一言百川大模型腾讯混元助手,都可以完成阅读和记忆文档的功能,回答也中规中矩的准确,不多说话,也是相当不错。

剩下的三个语言模型也要加把劲,更加完善自身功能,造福我们呀,哈哈。

小注:
本次测试仅仅是对于pdf文档的测试,数据内容特意进行了裁剪,数据量不大,关联性明确,所以比较容易分析,后期可以考虑增加难度,使用word章节结构、Excel的sheet页关联链接等方式进行测试各大语言模型的逻辑分析能力。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值