语言模型测试系列【8】

语言模型

  1. 文心一言
  2. 星火认知大模型
  3. 通义千问
  4. 豆包
  5. 360智脑
  6. 百川大模型
  7. 腾讯混元助手
  8. Kimi Chat
  9. 商量
  10. C知道

这次的测试比较有针对性,是在使用钉钉新推出的AI助理功能之后发现的问题,即创建AI助理绑定自己钉钉的知识库进行问答,其中对于表结构的文档学习尚有不足,回答的错误率较高,所以这里就直接拿各大预言模型进行测试对比。

首先,准备Excel文档的数据。
在这里插入图片描述
然后,进行提问,提问的数量不多,仅针对上图中标有底色的部分进行提问。同时对上面所列的语言模型进行筛选,仅有通义千问豆包Kimi Chat支持Excel文档的学习,那下面的对比也只对这三个语言模型进行测试,其他模型先靠边站吧。

提问及回答

问题1:请学习文档,并告诉我李航宇是哪个医疗单位的法定负责人
问题2:那 刘金刚 呢?
问题3:刘继东 是哪个单位的法定代表人
问题4:沈阳兴齐眼科有限公司的具体地址在哪里?

通义千问

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

豆包

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

Kimi Chat

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

对比分析

从支持Excel文档的阅读学习能力来看,通义千问豆包Kimi Chat都支持,这方面比其他模型还是有优势的,特别是在垂直领域,很多专门的行业都有自己的一套数据,而且大部分数据都储存在表的文件内。不管是阅读还是平台调用都比较方便准确的提取到感兴趣的数据信息,支持表结构的阅读学习,也将是语言模型努力的方向。

模型名称回答内容
文心一言3.5不支持
讯飞星火认知大模型不支持
通义千问四个问题错了仨,勉强对了一个
豆包准确
360智脑不支持
百川大模型不支持
腾讯混元助手不支持
Kimi Chat准确
商量不支持
C知道不支持

总结

豆包Kimi Chat对Excel文档的内容学习和理解比较准确,本次赢得测试。
通义千问在支持Excel学习后,准确率还是有所欠缺。
本次测试主要是在语言模型支持的领域进行对比测试,相信大部分通用功能,在网络环境下,基本上都能准确实现,这方面也增加了测试难度,很难区分出优劣。所以,今后将在各大语言模型迭代新功能上测试。

小注:
语言模型的支持将越来越完善,决赛圈越来越近了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值