语言模型
这次的测试比较有针对性,是在使用钉钉新推出的AI助理功能之后发现的问题,即创建AI助理绑定自己钉钉的知识库进行问答,其中对于表结构的文档学习尚有不足,回答的错误率较高,所以这里就直接拿各大预言模型进行测试对比。
首先,准备Excel文档的数据。
然后,进行提问,提问的数量不多,仅针对上图中标有底色的部分进行提问。同时对上面所列的语言模型进行筛选,仅有通义千问、豆包和Kimi Chat支持Excel文档的学习,那下面的对比也只对这三个语言模型进行测试,其他模型先靠边站吧。
提问及回答
问题1:请学习文档,并告诉我李航宇是哪个医疗单位的法定负责人
问题2:那 刘金刚 呢?
问题3:刘继东 是哪个单位的法定代表人
问题4:沈阳兴齐眼科有限公司的具体地址在哪里?
通义千问
问题1
问题2
问题3
问题4
豆包
问题1
问题2
问题3
问题4
Kimi Chat
问题1
问题2
问题3
问题4
对比分析
从支持Excel文档的阅读学习能力来看,通义千问、豆包和Kimi Chat都支持,这方面比其他模型还是有优势的,特别是在垂直领域,很多专门的行业都有自己的一套数据,而且大部分数据都储存在表的文件内。不管是阅读还是平台调用都比较方便准确的提取到感兴趣的数据信息,支持表结构的阅读学习,也将是语言模型努力的方向。
模型名称 | 回答内容 |
---|---|
文心一言3.5 | 不支持 |
讯飞星火认知大模型 | 不支持 |
通义千问 | 四个问题错了仨,勉强对了一个 |
豆包 | 准确 |
360智脑 | 不支持 |
百川大模型 | 不支持 |
腾讯混元助手 | 不支持 |
Kimi Chat | 准确 |
商量 | 不支持 |
C知道 | 不支持 |
总结
豆包和Kimi Chat对Excel文档的内容学习和理解比较准确,本次赢得测试。
通义千问在支持Excel学习后,准确率还是有所欠缺。
本次测试主要是在语言模型支持的领域进行对比测试,相信大部分通用功能,在网络环境下,基本上都能准确实现,这方面也增加了测试难度,很难区分出优劣。所以,今后将在各大语言模型迭代新功能上测试。
小注:
语言模型的支持将越来越完善,决赛圈越来越近了。