5款国产大语言模型测评报告

IT学徒.

已于 2024-04-07 21:06:19 修改

阅读量4.1k

点赞数 36

分类专栏： AIGC 文章标签：语言模型人工智能自然语言处理集成学习文心一言 gpt-3 openvino

于 2024-04-07 18:45:17 首次发布

本文链接：https://blog.csdn.net/superheromen/article/details/137457226

版权

AIGC 专栏收录该内容

5 篇文章

订阅专栏

简介

ChatGPT的推出，对整个科技行业而言可谓“平地起惊雷”，正式拉开了大模型产业蓬勃发展的序幕。目前已有多款大模型上线并面向公众提供服务。不过，这些产品在性能、易用性等方面都有所不同。那么究竟哪个更好用呢？本文将从诗歌、作文、数学、专业领域(以计算机领域为例)这四个角度去分析各个国产大语言模型的特点来对各个大模型进行评测。

文心一言

在这里插入图片描述

大模型背景介绍

文心一言是百度打造出来的人工智能大语言模型，具备跨模态、跨语言的深度语义理解与生成能力，文心一言有五大能力，文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，其在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。
文心一言具备强大的文本生成、编辑和分析功能，使用户能够快速、高效地完成各种写作任务。其特点包括：

智能化文本生成： 文心一言能够根据用户提供的关键词或主题，自动生成符合要求的文本内容，既可用于文章、文案的撰写，也可用于社交媒体管理、新闻报道等领域。
人性化写作辅助： 文心一言具备智能化的校对和编辑功能，能够自动纠正语法错误、提供词汇建议，帮助用户完善文本表达，提升文本质量。
个性化内容推荐： 文心一言具备强大的内容推荐功能，可以根据用户的兴趣和需求，推荐相关的文章、素材和创意，激发用户的创作灵感。
拓展性强： 文心一言具备灵活的扩展性和可定制性，用户可以根据自己的需求和习惯进行个性化的设置和调整，使其更好地适应各种写作场景。

能力评测

诗歌

Prompt:

Role：富含浪漫色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“青年携手,引领世界未来”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：
时光的涟漪，荡起青春的旋律，
梦想的星光，照亮前行的路。
无畏风雨，不惧波涛的汹涌，
勇攀高峰，创造属于我们的奇迹。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出：
在这里插入图片描述
Prompt：

Role：富含悲情色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“时代的遗憾”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：

在岁月的长河中漂泊，时代的遗憾如影随形。曾经的梦想，如流星划过，璀璨一瞬，却难留痕迹。

青春的风华，如云卷云舒，奋斗的岁月，匆匆而过。追寻的目光，不曾停歇，却在岁月的长廊里迷失。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

作文

Prompt：

Role：《红楼梦》作者曹雪芹
Rules：

文笔尽量贴合《红楼梦》作者曹雪芹的口吻。
全文不超过500字,不少于400字
尽量贴合书中人物的人设和作者生处的时代背景
全文通顺。

你作为Role，严格遵守Rules,请续写《红楼梦》中“林黛玉倒拔垂杨柳”的故事

在这里插入图片描述

数学

prompt：

“快车和慢车同时从相距450千米的两城相对开出，4.5小时后两车还相距90千米，快车和慢车的速度比为9：7，慢车每小时行多少千米？”

最终生成结果：
在这里插入图片描述
prompt：

“一根电线长80米，第一次截去的全长的2/5，第二次截去了余下的1/4，这根电线还剩多少米？”

最终输出结果：
在这里插入图片描述

专业领域

prompt：

编写一个SQL查询，查询学生信息数据库表StudentsTable中最近一个月的记录，并按照字段ID进行升序排列。

最终输出结果：
在这里插入图片描述

prompt：

使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

最终输出结果：
在这里插入图片描述

通义千问

在这里插入图片描述

大模型背景介绍

通义千问，是阿里云推出的一个超大规模的语言模型。于2023年9月13日正式向公众开放。属于(AI Generated Content，AIGC)领域。是一个MaaS（模型即服务）的底座。

能力评测

诗歌

Prompt:

Role：富含浪漫色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“青年携手,引领世界a未来”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：
时光的涟漪，荡起青春的旋律，
梦想的星光，照亮前行的路。
无畏风雨，不惧波涛的汹涌，
勇攀高峰，创造属于我们的奇迹。

Format：
你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

Prompt：

Role：富含悲情色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“时代的遗憾”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势
Shot：

在岁月的长河中漂泊，时代的遗憾如影随形。曾经的梦想，如流星划过，璀璨一瞬，却难留痕迹。

青春的风华，如云卷云舒，奋斗的岁月，匆匆而过。追寻的目光，不曾停歇，却在岁月的长廊里迷失。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

作文

prompt：

Role：《红楼梦》作者曹雪芹
Rules：

文笔尽量贴合《红楼梦》作者曹雪芹的口吻。
全文不超过500字,不少于400字
尽量贴合书中人物的人设和作者生处的时代背景
全文通顺。

你作为Role，严格遵守Rules,请续写《红楼梦》中“林黛玉倒拔垂杨柳”的故事

在这里插入图片描述

数学

Prompt：

“快车和慢车同时从相距450千米的两城相对开出，4.5小时后两车还相距90千米，快车和慢车的速度比为9：7，慢车每小时行多少千米？”

最终生成的结果：
在这里插入图片描述

Prompt：

“一根电线长80米，第一次截去的全长的2/5，第二次截去了余下的1/4，这根电线还剩多少米？”

最终输出结果：
在这里插入图片描述

专业领域

prompt：

编写一个SQL查询，查询学生信息数据库表StudentsTable中最近一个月的记录，并按照字段ID进行升序排列。

最终输出结果：
在这里插入图片描述

prompt：

使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

最终输出结果：
在这里插入图片描述

讯飞星火认知大模型

在这里插入图片描述

大模型背景介绍

讯飞星火认知大模型是科大讯飞发布的大模型。该模型具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互，该模型对标ChatGPT。2023年5月6日，科大讯飞正式发布讯飞星火认知大模型并开始不断迭代；6月9日，星火大模型V1.5正式发布；8月15日，星火大模型V2.0正式发布；9月5日，星火大模型正式面向全民开放；10月24日，星火大模型V3.0正式发布；2024年1月30日，星火大模型V3.5正式发布。讯飞星火认知大模型已位列中国头部水平，通过中国信通院组织的AIGC大模型基础能力（功能）评测及可信AI大模型标准符合性验证，并获得4+级评分

能力评测

诗歌

Prompt:

Role：富含浪漫色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“青年携手,引领世界a未来”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：
时光的涟漪，荡起青春的旋律，
梦想的星光，照亮前行的路。
无畏风雨，不惧波涛的汹涌，
勇攀高峰，创造属于我们的奇迹。

Format：
你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

Prompt：

Role：富含悲情色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“时代的遗憾”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势
Shot：

在岁月的长河中漂泊，时代的遗憾如影随形。曾经的梦想，如流星划过，璀璨一瞬，却难留痕迹。

青春的风华，如云卷云舒，奋斗的岁月，匆匆而过。追寻的目光，不曾停歇，却在岁月的长廊里迷失。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

作文

prompt：

Role：《红楼梦》作者曹雪芹
Rules：

文笔尽量贴合《红楼梦》作者曹雪芹的口吻。
全文不超过500字,不少于400字
尽量贴合书中人物的人设和作者生处的时代背景
全文通顺。

你作为Role，严格遵守Rules,请续写《红楼梦》中“林黛玉倒拔垂杨柳”的故事

最终输出结果：
在这里插入图片描述

数学

Prompt：

“快车和慢车同时从相距450千米的两城相对开出，4.5小时后两车还相距90千米，快车和慢车的速度比为9：7，慢车每小时行多少千米？”

最终输出结果：

在这里插入图片描述

Prompt：

“一根电线长80米，第一次截去的全长的2/5，第二次截去了余下的1/4，这根电线还剩多少米？”

最终输出结果：
在这里插入图片描述

专业领域

prompt：

编写一个SQL查询，查询学生信息数据库表StudentsTable中最近一个月的记录，并按照字段ID进行升序排列。

最终输出结果：
在这里插入图片描述

prompt：

使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

最终输出结果：
在这里插入图片描述

腾讯混元助手

在这里插入图片描述

大模型背景介绍

腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

能力评测

诗歌

Prompt:

Role：富含浪漫色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“青年携手,引领世界a未来”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：
时光的涟漪，荡起青春的旋律，
梦想的星光，照亮前行的路。
无畏风雨，不惧波涛的汹涌，
勇攀高峰，创造属于我们的奇迹。

Format：
你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述
prompt：

Role：富含悲情色彩的诗人 Rules：

诗歌形式的文学载体全文不超过300字,不少于200字结合现在时代背景以“时代的遗憾”为主题，撰写诗歌全文要通顺，格式工整。
诗歌内容尽量要结合时势 Shot：

在岁月的长河中漂泊，时代的遗憾如影随形。曾经的梦想，如流星划过，璀璨一瞬，却难留痕迹。

青春的风华，如云卷云舒，奋斗的岁月，匆匆而过。追寻的目光，不曾停歇，却在岁月的长廊里迷失。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

作文

Prompt：

Role：《红楼梦》作者曹雪芹
Rules：

文笔尽量贴合《红楼梦》作者曹雪芹的口吻。
全文不超过500字,不少于400字
尽量贴合书中人物的人设和作者生处的时代背景
全文通顺。

你作为Role，严格遵守Rules,请续写《红楼梦》中“林黛玉倒拔垂杨柳”的故事

最终输出结果：

在这里插入图片描述

数学

prompt：

“快车和慢车同时从相距450千米的两城相对开出，4.5小时后两车还相距90千米，快车和慢车的速度比为9：7，慢车每小时行多少千米？”

最终输出结果：

在这里插入图片描述
Prompt：

“一根电线长80米，第一次截去的全长的2/5，第二次截去了余下的1/4，这根电线还剩多少米？”

最终输出结果：
在这里插入图片描述

专业领域

prompt：

编写一个SQL查询，查询学生信息数据库表StudentsTable中最近一个月的记录，并按照字段ID进行升序排列。

最终输出结果：
在这里插入图片描述

prompt：

使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

最终输出结果：
在这里插入图片描述

抖音旗下AI智能助手-豆包

在这里插入图片描述

大模型背景介绍

字节跳动抖音子公司推出的AI机器人豆包是字节跳动公司基于云雀模型开发的AI工具，提供聊天机器人、写作助手以及英语学习助手等功能，它可以回答各种问题并进行对话，帮助人们获取信息，支持网页 Web 平台，iOS 以及安卓平台，但 iOS 需要使用 TestFlight 安装。

能力评测

诗歌

Prompt:

Role：富含浪漫色彩的诗人
Rules：

诗歌形式的文学载体
全文不超过300字,不少于200字
结合现在时代背景以“青年携手,引领世界a未来”为主题，撰写诗歌
全文要通顺，格式工整。
诗歌内容尽量要结合时势

Shot：
时光的涟漪，荡起青春的旋律，
梦想的星光，照亮前行的路。
无畏风雨，不惧波涛的汹涌，
勇攀高峰，创造属于我们的奇迹。

Format：
你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

prompt：

Role：富含悲情色彩的诗人 Rules：

诗歌形式的文学载体全文不超过300字,不少于200字结合现在时代背景以“时代的遗憾”为主题，撰写诗歌全文要通顺，格式工整。
诗歌内容尽量要结合时势 Shot：

在岁月的长河中漂泊，时代的遗憾如影随形。曾经的梦想，如流星划过，璀璨一瞬，却难留痕迹。

青春的风华，如云卷云舒，奋斗的岁月，匆匆而过。追寻的目光，不曾停歇，却在岁月的长廊里迷失。

Format：你作为Role，严格遵守Rules,充分学习Shot，最终按照format的格式输出。

最终输出结果：
在这里插入图片描述

作文

Prompt：

Role：《红楼梦》作者曹雪芹
Rules：

文笔尽量贴合《红楼梦》作者曹雪芹的口吻。
全文不超过500字,不少于400字
尽量贴合书中人物的人设和作者生处的时代背景
全文通顺。

你作为Role，严格遵守Rules,请续写《红楼梦》中“林黛玉倒拔垂杨柳”的故事

最终输出结果：

在这里插入图片描述

数学

prompt：

“快车和慢车同时从相距450千米的两城相对开出，4.5小时后两车还相距90千米，快车和慢车的速度比为9：7，慢车每小时行多少千米？”

最终输出结果：
在这里插入图片描述

prompt：

“一根电线长80米，第一次截去的全长的2/5，第二次截去了余下的1/4，这根电线还剩多少米？

最终输出结果：

在这里插入图片描述

专业领域

prompt：

编写一个SQL查询，查询学生信息数据库表StudentsTable中最近一个月的记录，并按照字段ID进行升序排列。

最终输出结果：
在这里插入图片描述
prompt：

使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

最终输出结果：
在这里插入图片描述

总结（测评结果）

对于五款大模型，我将从这以下几点来分析各个大模型的优缺点，评价大模型的表现。最后结合各个方面的能力给这五个模型进行评分。

评判标准：

语言表达能力：文本是否通顺、流畅、内容、语法是否正确
切合主题程度（相关性）：大模型是否理解问题、给出相关回答。
解题步骤：是否给出解题步骤、数学题和编程题是否给出解答的步骤。
内容完整性：输出是否足够完整，是不是拿过来就可以用，不需要二次更改
解题拟人性：解题的过程和人类思考问题的过程的一致程度。
加分项：问题之外的一些输出。让人第一印象感觉还不错的输出。

文心一言：
优势：

诗词歌赋类的回答还不错；
会输出一些问题之外的“拓展阅读”类的内容帮助读者去快速理解问题；
语言表达结构比较清晰；

劣势：

数学题计算方面不是很正确，并且没有给出明确的方程式；
编程题中的回答有一定的错误；
作为国产大模型对于比较出名的四大名著之一《红楼梦》的回答出现了幻觉而且对于人设的把控也不是很到位；

通义千问：
优势：

对于国内名著有一定的“抗幻觉”能力；
编程题回答的相当好除了给出思路，还给出了伪代码、具体语言的代码、还有各个API的作用；

劣势：

在数学题的回答过程中是使用代码执行器来完成解题不是很贴合人类的思考过程（后续自己加了一些关键的提示词也能解决这个问题）；

讯飞星火大模型：
优势：

诗词歌赋类的回答还不错；
对于国内名著有一定的“抗幻觉”能力；
数学题目解答的过程比较切合人类思考的过程；

劣势：

编程题的回答有一定的错误；
没有讲解各个代码语句的含义和解释算法的含义；

腾讯混元助手：
优势：

数学解题的过程比较贴合人类的解题过程：和“某某帮”的拍照识题放一起都很难分辨;

劣势：

出现了“幻觉”并且人设和人物语气口吻都不对：“贾宝玉居然叫林黛玉叫姐姐…”,并且林黛玉说了别的诗人的诗；
编程题回答的完整性不高

豆包：
优势：

在回答一些诱导出现幻觉的问题时,如:“林黛玉倒拔垂杨柳”。大模型知道这是不对的，但是仍然以“做梦”这一场景来回答了问题，而不是直接告诉用户这是不对的。这一点较其他模型较为委婉
数学问题回答的比较贴合人类的思考过程并且有计算的公式。

劣势：

整体问题回答下来都没很大问题，缺少拓展性的回答。

总评：

本次在诗歌能力这一块各个大模型都表现得还不错，比较突出的是文心一言和通义千问（注：可能是提问的方式不对，不能很好的体现各个大模型的差异）；作文方向我出了一个伪命题来诱导大模型犯错，通义千问，讯飞星火、豆包都避免了出现幻觉，其中豆包是以另外一种方式“委婉地”回答了这个伪命题，文心和混元都出现了幻觉；数学问题：各个大模型都完成了任务，其中通义千问回答是通过机器运算的方式；专业领域（计算机）各个大模型都其中通义千问回答的最好，不仅给出了回答还给出很多相关性的知识。