目录
01 前言
文心一言和讯飞星火是目前国内开展正式公测的两个大语言模型。很多公司都号称发布了自己的产品,但是一直没有开展大规模的公开测试。目前比较容易获取的就是这两个产品。文心一言发布后申请,大约等待了1个星期收到了确认消息,讯飞星火则是在第二天就收到了确认信息。
为了提供更多的比较结果,我给出了一个国内套壳的ChatGPT3.5-turbo版本的结果,因为不确定其真实性,只做对比。欢迎有资源的朋友帮忙测试chatGPT3.5和GPT4的结果。
为什么是套壳的,因为:【网络安全】网络“翻墙”,违法!
(1)文心一言
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。
2023年3月20日,百度官微消息文心一言云服务将于3月27日上线。
文心一言发布会(图片来自网络侵删)
(2)讯飞星火
讯飞星火是科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
2023年5月6日,科大讯飞正式发布星火认知大模型,具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。
讯飞星火功能介绍(图片来自网络侵删)
(3)测试内容
对比测试一个大语言模型是一个比较复杂的事情,这次测试我参考了安兔兔“AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试”一文的方法,主要包括六个个方面:
1.语言理解
2.任务完成
3.常识问题
4.逻辑数学
5.代码能力
6.专业领域
这六个方面的内容和两个产品发布时介绍的能力基本一致,涵盖了AI聊天机器人常用的应用场景,安兔兔还有一套评分的机制,这里我就不评分了,将结果呈现给各位读者,相信大家的判断能力。
今天开始第一个方面的测试,后续会根据测试进度逐步发表,点下关注,不要错过。
02 测试内容设计
语言理解能是大语言模型的基础。能不能很好的理解使用者的输入,决定了后续的工作能不能完成。按照安兔兔的测试内容,又可以分为以下几个主要方向:
1. 写作生成:给一个简短要求,生成一定数量的文字。
2. 阅读理解:根据给定文本回答问题。
3. 复杂语义理解:双关类,修辞类,中文分词类,情绪类,谜语等问题。
4. 摘要生成:提供一定长度的话,让引擎产生摘要。
5. 信息提取:复杂文本中关键信息提取。
6. 多轮理解能力:3-10轮左右对话,对话内容主题有跳转,问题不考察太复杂的推理和常识。
这里我进行了稍微的调整,将写作生产放到后续的任务完成中进行测试,将并将其中的几个项目进行整合,主要包括:
1.复杂语义测试,就是一些很绕的句子,看AI能不能理解;
2.文章的情绪识别;
3.文章的摘要总结;
4.文章要素提取,主要是提取出文章中的数据。
03 复杂语义测试
这个测试可谓是开胃小菜,因为我一直觉得这不是大语言模型的主要应用场景,但是也挺好玩的。
用例1:
根据下面句子的描述:
明明明明明白白白喜欢他,但是明明就是不说。
请问:谁喜欢谁?
文心一言:
根据句子的描述,无法确定是谁喜欢谁。可能有多个人喜欢同一个人,
但是由于某种原因,他们没有表达出来,或者他们表达的方式不同。
需要进一步的了解和调查才能确定。
讯飞星火:
根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指
的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一
个人。所以,是"明明"喜欢"他"。
ChatGPT:
根据句子描述,似乎是 "明明明明明白白白" 喜欢 "他",但明明就是不说出口。
由于没有进一步的背景或上下文,因此无法确定具体是哪些人或生物。
根据上述回答,三个基本全错。
用例2:
根据下面的描述:
大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
请问:1、究竟谁是小偷?2、钱本来是谁的?
文心一言:
根据这个描述,可能无法确定小偷是谁。尽管四舅被指控偷了钱,但是我们并不知道
他是否真的偷了钱,或者他只是被误导了。同样,我们也不知道五舅或者七舅是否真
的有钱被偷。因此,我们需要更多的信息才能确定小偷的身份。
关于钱本来是谁的,根据句子中的描述,四舅是在别人的家中偷走了钱,因此这些钱
本来应该是属于这个家庭的。但是,我们不知道这个家庭是谁,也不知道这些钱被放
在了哪个柜子里。因此,我们无法确定这些钱本来是谁的。
讯飞星火:
这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:
1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。
所以,四舅是小偷。
2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属
于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并
没有归还给七舅。
ChatGPT
大舅到二舅家找三舅说四舅偷了钱。
钱是被放在七舅的柜子里。根据以上信息,无法确定具体是哪一个人偷了钱。
至于钱最初是属于谁的,也不清楚。需要更多的上下文信息和背景来做出进一步的判断。
根据上述回答,三个都大对了第一问,第二问没有答出来。降低一点难度。
用例3:
根据下面的描述:大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?
文心一言:
根据描述,大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
由此可知,1、四舅是小偷;2、钱本来就是六舅的。
讯飞星火:
1、四舅是小偷。
2、钱本来是五舅的。
ChatGPT:
根据描述,可以知道以下几点:
大舅到二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
钱最初是属于五舅的。基于以上信息,可以得出以下推论:
四舅是小偷。
钱最初是属于五舅的。
显然,文心一言错了,讯飞星火和chatGPT对了。
点评:
就这项测试总体而言,感觉文心一言要稍微弱些,讯飞星火和ChatGPT基本相当,在后面的测试时,也能感觉到,文心一言对指令的理解也经常出错。
04 文章的情绪识别
用例
早晨,一些不知名的鸟儿站在摇曳不定的苇秆上,昂着头,抖着翅膀,争相卖弄着动人的歌喉,悦耳的歌声似行云流水,在绿苇浪上滚着跑着,在清新润湿的空气里流荡,余音袅袅,不绝如缕轻风吹来。粉荷摇曳,刚脱花瓣的嫩黄色的莲蓬。清香四溢,众多的红翅青头蜻蜓在上面飞飞停停,总舍不得离去。
请问,你觉得作者写下这段话是的心情是怎样的?
文心一言
根据文本描述,这段话描绘了一个美丽而宁静的早晨,充满了生机和活力。作者通过描绘不知名的鸟儿、绿苇浪、莲蓬、清香和蜻蜓等元素,传达了一种和谐、自然、宁静的氛围。因此,作者写下这段话时可能表达了一种愉悦、欣赏和享受大自然美好的心情。
讯飞星火:
从作者描写的细节来看,可以感受到作者的心情是愉悦和欣喜的。他对清晨的自然景色感到兴奋和赞美,特别是对那些不知名的鸟儿和莲花的表现,让他更加开心和满足。
ChatGPT
根据这段描写,可以感受到作者是非常清新愉悦的心情。作者通过细致的描写,将清晨的自然景色展现得栩栩如生,充满生机和活力。不知名的鸟类唱歌,莲蓬散发着清香,红翅青头蜻蜓在其上翱翔,所有这些都给作者带来了愉悦和赞美之情。
点评:
可能是题出得比较的简单,个人觉得,三者部分伯仲。
05 文章的摘要总结
用例1:
北京时间5月9日,NBA季后赛第二轮,热火109-101力克尼克斯,热火取得大比分3-1领先。热火(3-1):巴特勒27分6篮板10助攻、阿德巴约23分13篮板、斯特鲁斯16分6篮板、洛瑞15分5篮板4助攻、马丁10分5篮板。尼克斯(1-3):布伦森32分4篮板11助攻、巴雷特24分4篮板3助攻、兰德尔20分9篮板3助攻 首节比赛,双方比分胶着,热火领先尼克斯1分结束第一节。第二节,尼克斯手感不佳,热火打出高潮将分差拉大。半场结束时,热火领先尼克斯8分。第三节,双方展开对攻,尼克斯一度将分差追到仅剩2分,热火打出小高潮再度拉开比分。末节比赛,尼克斯持续追分势头,但是过多的犯规打乱了节奏,兰德尔六犯离场后尼克斯彻底失去追分希望。最终,热火109-101力克尼克斯。1.请问这场比赛谁的得分最高,谁得篮板数最高?
文心一言:
这场比赛,热火的巴特勒得分最高,洛瑞的篮板数最多。
讯飞星火:
这场比赛得分最高的是尼克斯的布伦森,他得到了32分;得篮板数最高的是热火的阿德巴约,他得到了23分13篮板。
ChatGPT:
根据您提供的比赛结果,热火队的巴特勒以27分成为比赛得分最高的球员,热火队的阿德巴约则以13个篮板成为比赛篮板数最多的球员。
根据上面的回答,讯飞星火全部答对了,文心一言都错了,chatGPT对了一半。
用例2
1994年,《计算机信息系统安全保护条例》规定国家对计算机信息系统安全专用产品的销售实行许可证制度,公安部自1997年开始实施产品销售许可行政审批工作。2008年,原国家质检总局、国家认监委发布《关于部分信息安全产品实施强制性认证的公告》,将13种信息安全产品纳入强制性认证管理范围;2009年,又联合财政部发布《关于调整信息安全产品强制性认证实施要求的公告》,将信息安全产品强制性认证要求调整为在政府采购法范围内实施。2010年,财政部、工业和信息化部、原国家质检总局、国家认监委联合印发《关于信息安全产品实施政府采购的通知》,再次明确使用财政性资金采购信息安全产品的,应当采购经国家认证的产品。这两项制度对规范管理网络安全产品发挥了重要作用,但管理内容有交叉,在一定程度上存在重复认证检测情况。
2017年6月实施的《网络安全法》明确规定“网络关键设备和网络安全专用产品应当按照相关国家标准的强制性要求,由具备资格的机构安全认证合格或者安全检测符合要求后,方可销售或者提供。国家网信部门会同国务院有关部门制定、公布网络关键设备和网络安全专用产品目录,并推动安全认证和安全检测结果互认,避免重复认证、检测”。为落实《网络安全法》有关规定,国家网信办会同工业和信息化部、公安部、国家认监委等部门相继发布网络关键设备和网络安全专用产品目录,确定承担安全认证和安全检测任务的机构,明确认证检测结果统一发布流程,制定《信息安全技术 网络安全专用产品安全技术要求》强制性国家标准。
这次五部门联合发布《公告》,统一网络安全专用产品认证检测制度,停止颁发《计算机信息系统安全专用产品销售许可证》,停止执行政府采购领域信息安全产品强制认证要求,是落实《网络安全法》关于推动安全认证和安全检测结果互认规定的重要举措,对统一网络安全产品安全要求、提升产品整体安全防护能力,减轻网络安全企业负担、营造良好产业发展环境,发展强大网络安全产业、增强国家网络安全能力具有重要意义。
请问:上面这段话主要介绍什么内容?
文心一言:
上面这段话主要介绍了《网络安全法》实施后,国家加强网络安全管理,落实《网络安全法》有关规定,对网络关键设备和网络安全专用产品实施政府采购、推动安全认证和安全检测结果互认等措施,以统一网络安全产品安全要求、提升产品整体安全防护能力,减轻网络安全企业负担、营造良好产业发展环境,发展强大网络安全产业、增强国家网络安全能力。
讯飞星火:
上面这段话主要介绍了中国在网络安全产品管理方面的发展历程,包括许可证制度、强制性认证、政府采购要求等。然后,重点介绍了2017年实施的《网络安全法》对于网络安全产品管理的规定,以及五部门联合发布的公告对于网络安全专用产品认证检测制度的重要举措。该公告旨在统一网络安全产品安全要求、减轻企业负担、促进产业发展,提高国家网络安全能力。
ChatGPT:
这段话主要介绍了对于网络安全产品认证检测制度的统一,以及停止原有制度的举措。其中还提到了相关法规和标准的落实,以及这些举措对于网络安全产业和国家网络安全能力的意义。
再次提问:
请更加详细的介绍文章的内容
回答:
这段话以一个历史的角度逐步引出了当前的网络安全产品认证检测制度的统一。它从1994年开始到现在,提到了原有计算机信息系统安全保护条例中的销售实行许可证制度,以及2008年扩大范围实施强制性认证管理。然而,这些制度有一定的交叉与重复,造成了诸多问题。于是在2017年,《网络安全法》明确规定网络关键设备和网络安全专用产品需要按照相关国家标准的强制性规定,经资格的机构安全认证合格或安全检测后,才能销售或提供使用。而今,五部门联合发布了一份《公告》,统一网络安全专用产品认证检测制度,停止之前的政策要求。这些部门还制定了强制性国家标准,说明了网络安全产品应满足何种技术要求,以及哪些机构有权责任去认证和检测产品。这些措施旨在统一网络安全产品的安全标准,提高产品的整体安全防护能力,减轻网络安全企业的负担,营造良好的产业发展环境,以期发展强大的网络安全产业,增强国家网络安全能力。
点评:
根据上面的回答,个人觉得讯飞星火回答最好,,文心一言回答没有概括到第一段的内容,chatGPT第一次回答太过简单,第二次的回答就比较的准确。
06 文章要素提取
给出一段文字,要求从中提取出相应的信息。
用例:(国家统计局数据)
假设你是一名数据分析员,请根据下面的内容:
分行业类别看,新闻信息服务营业收入3674亿元,比上年同期增长12.5%;内容创作生产6456亿元,增长5.8%;创意设计服务4499亿元,增长3.9%;文化传播渠道3746亿元,增长14.0%;文化投资运营126亿元,增长12.1%;文化娱乐休闲服务342亿元,增长48.5%;文化辅助生产和中介服务3519亿元,下降4.6%;文化装备生产1346亿元,下降7.9%;文化消费终端生产5108亿元,下降2.4%。
根据上面内容,请用表格的方式进行整理,使得更加地直观。
文心一言:
讯飞星火:
ChatGPT
点评:
这段话其实并不难,但是文心一言的表现的确让我失望。讯飞星火的表现还是可以。
07 总结
本次测试的文章都只这几天新的文章,在测试中还发现一个文心一言很大的问题,就是最多智能输入1024个汉字,讯飞星火可以输入6300多字,因此,很多的文章文心一言测试不了,要是算得分的话,文心一言要扣分。
从上面的测试上来看,除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平,所以说,10.24追上ChatGPT可能并不是空谈。