语言模型测试系列【9】

最新推荐文章于 2024-11-04 10:51:20 发布

大道志远

最新推荐文章于 2024-11-04 10:51:20 发布

阅读量668

点赞数 8

分类专栏：语言模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/kewaqi618/article/details/139474492

版权

语言模型专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在这里插入图片描述

语言模型

好长时间没有做语言模型的测试了，一方面是没有好的素材，各模型都在升级优化，而且频率很高；另一方面近期在阅读和学习其他的知识，所以更的也少了。本次发布的文章同时更新了部分大模型的称呼。

提问及回答

问题：Qwen1.5-7B-Chat
说明：对，没错，问题就是这个千问的语言模型，最近在研究语言模型这款的搭建和使用，不经意间就想问Qwen1.5-7B-Chat相关的内容，但不知道从何问起，于是就只是把模型名输出来，让个各大模型来给我提供一些灵感了。

文心一言

在这里插入图片描述

讯飞星火

在这里插入图片描述

通义千问2.5

在这里插入图片描述

豆包

在这里插入图片描述

360智脑

在这里插入图片描述

百小应

在这里插入图片描述

腾讯元宝

在这里插入图片描述

Kimi

在这里插入图片描述

C知道

在这里插入图片描述

对比分析

这次的的对比很明显的豆包、文心一言、讯飞星火胜出，这两个大模型的回答都很准确，而且回答内容各有千秋，都能用上，特别是豆包的理解过程，提供出了搜索来源；而文心一言后面有度娘这么大一搜索平台支撑，确没有提供出这点功能展示，着实有点小失落；讯飞星火提供的摩搭平台的资料来源，着实是一大助力，对搭建模型的研究来说，很是及时。

至于腾讯元宝把这个模型占为己有的做法。。。，这里就不做评论了，貌似腾讯的好多应用都有类似案例

其他模型嘛，除了C知道的回答里可以转成“思维导图”的设计，着实是一个亮点。

从上面几个大模型的回答，从主观意识上对比如下：

模型名称	回答内容
文心一言	准确
讯飞星火	准确
通义千问2.5	没回答出来
豆包	准确
360智脑	没回答出来
百小应	没回答出来
腾讯元宝	回答错误
Kimi	没回答出来
C知道	没回答出来