语言模型测试系列【5】_语言模型训练实验测试-CSDN博客

本文链接：https://blog.csdn.net/kewaqi618/article/details/137870043

本文详细比较了八种语言模型（如文心一言、通义千问等）对PDF文档内容的理解和回答准确性，发现KimiChat和通义千问在综合表现上更优，特别是KimiChat在结合指标分析和提供额外结论方面胜出。

摘要由CSDN通过智能技术生成

语言模型

今天我要测试的素材来自一份pdf的报告文件，这是一个测试文件，内容已调整，不是真实数据，仅供测试使用，文档中存在文本、制表符等内容，用来测试这八个语言模型对pdf文档的理解能力，及对应的回答准确性。

提问及回答

问题：
这里提问分成三部完成，因为数据不是公开数据，所以第一步需要做填喂操作，现将文件内容填喂给语言模型。后面才进行提问环节。
第一步：测试数据.pdf + 文本“这是一份来自中国医科大学南院区污水检验评估单，记录的是3月份的评估报告，请阅读并记住。”
在这里插入图片描述
第二步：提问一“请告诉我中国医科大学南院区的调节池池容是多少？”，提问二“请告诉我中国医科大学南院区的注意事项”，提问三“工艺评估是否合格？”
说明：为了保证回答的真实性，后面对于每个模型的回答过程均截图放进来对比。

文心一言

因为今天文心一言给我提供了免费试用文心大模型4.0工具版的权限，所以从今天开始到试用结束前，均使用文心大模型4.0工具版进行测试对比了。
在这里插入图片描述

讯飞星火认知大模型

在这里插入图片描述

通义千问

在这里插入图片描述

豆包

在这里插入图片描述

360智脑

没有添加文档的位置，也有可能没给我开放功能，不过我再百度上搜到了一则文章是关于长文本分析的，将来应该也会实现，但当前是无法测试了。
360智脑宣布正式内测500万字长文本处理功能 2024-3-25

百川大模型

在这里插入图片描述

腾讯混元助手

在这里插入图片描述

Kimi Chat

在这里插入图片描述

对比分析

这个测试过程开始只准备了两个问题，但在编写文章的时候，觉得不够全面，就新增了提问三，省略了院区的内容，直接针对指标进行提问，果然测出一个问题

从上面几个大模型的回答，从主观意识上对比如下：

模型名称	回答内容
文心一言4.0	有思考和行动过程，可以分析出文档数据并记住，回答准确
讯飞星火认知大模型	不支持
通义千问	能够阅读并记忆文档内容，并输出总结内容，列出部分指标数据，回答准确且分析全面
豆包	文档记忆缺失，回答有错误
360智脑	不支持
百川大模型	能够阅读并记忆文档内容，并输出总结内容，列出全部指标数据，回答准确
腾讯混元助手	能够阅读并记忆文档内容，并输出总结内容，列出全部指标数据，回答准确
Kimi Chat	能够阅读并记忆文档内容，并输出总结内容，列出全部指标数据，回答准确且分析全面

总结

通过八大模型的回答情况，对比结构如下：
通义千问和Kimi Chat的整体略胜其他语言模型，在“提问二”的回答中，可以做到将指标数据与注意事项的内容结合分析，这点非常优秀。后来新增的“提问三”中，Kimi Chat在准确回答结果的同时，还给出了其他结论内容供参考，这点略胜一筹，所以我觉得这次测试的冠军为“Kimi Chat”，亚军为“通义千问”。

文心一言、百川大模型和腾讯混元助手，都可以完成阅读和记忆文档的功能，回答也中规中矩的准确，不多说话，也是相当不错。

剩下的三个语言模型也要加把劲，更加完善自身功能，造福我们呀，哈哈。