语言模型
今天我要测试的素材来自一份pdf的报告文件,这是一个测试文件,内容已调整,不是真实数据,仅供测试使用,文档中存在文本、制表符等内容,用来测试这八个语言模型对pdf文档的理解能力,及对应的回答准确性。
提问及回答
问题:
这里提问分成三部完成,因为数据不是公开数据,所以第一步需要做填喂操作,现将文件内容填喂给语言模型。后面才进行提问环节。
第一步:测试数据.pdf + 文本“这是一份来自中国医科大学南院区污水检验评估单,记录的是3月份的评估报告,请阅读并记住。”
第二步:提问一“请告诉我中国医科大学南院区的调节池池容是多少?”,提问二“请告诉我中国医科大学南院区的注意事项”,提问三“工艺评估是否合格?”
说明:为了保证回答的真实性,后面对于每个模型的回答过程均截图放进来对比。
文心一言
因为今天文心一言给我提供了免费试用文心大模型4.0工具版的权限,所以从今天开始到试用结束前,均使用文心大模型4.0工具版进行测试对比了。
讯飞星火认知大模型
通义千问
豆包
360智脑
没有添加文档的位置,也有可能没给我开放功能,不过我再百度上搜到了一则文章是关于长文本分析的,将来应该也会实现,但当前是无法测试了。
360智脑宣布正式内测500万字长文本处理功能 2024-3-25
百川大模型
腾讯混元助手
Kimi Chat
对比分析
这个测试过程开始只准备了两个问题,但在编写文章的时候,觉得不够全面,就新增了提问三,省略了院区的内容,直接针对指标进行提问,果然测出一个问题
从上面几个大模型的回答,从主观意识上对比如下:
模型名称 | 回答内容 |
---|---|
文心一言4.0 | 有思考和行动过程,可以分析出文档数据并记住,回答准确 |
讯飞星火认知大模型 | 不支持 |
通义千问 | 能够阅读并记忆文档内容,并输出总结内容,列出部分指标数据,回答准确且分析全面 |
豆包 | 文档记忆缺失,回答有错误 |
360智脑 | 不支持 |
百川大模型 | 能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确 |
腾讯混元助手 | 能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确 |
Kimi Chat | 能够阅读并记忆文档内容,并输出总结内容,列出全部指标数据,回答准确且分析全面 |
总结
通过八大模型的回答情况,对比结构如下:
通义千问和Kimi Chat的整体略胜其他语言模型,在“提问二”的回答中,可以做到将指标数据与注意事项的内容结合分析,这点非常优秀。后来新增的“提问三”中,Kimi Chat在准确回答结果的同时,还给出了其他结论内容供参考,这点略胜一筹,所以我觉得这次测试的冠军为“Kimi Chat”,亚军为“通义千问”。
文心一言、百川大模型和腾讯混元助手,都可以完成阅读和记忆文档的功能,回答也中规中矩的准确,不多说话,也是相当不错。
剩下的三个语言模型也要加把劲,更加完善自身功能,造福我们呀,哈哈。
小注:
本次测试仅仅是对于pdf文档的测试,数据内容特意进行了裁剪,数据量不大,关联性明确,所以比较容易分析,后期可以考虑增加难度,使用word章节结构、Excel的sheet页关联链接等方式进行测试各大语言模型的逻辑分析能力。