文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现

本文通过一个包含20个春秋战国历史问题的数据集,对文心一言、讯飞星火、GPT-4和GPT3.5进行问答测试。结果显示,文心一言以90%的正确率领先,其次是讯飞星火(65%)、GPT-4(60%)和GPT3.5(55%)。在用户体验打分方面,文心一言同样表现出色,获得4.3分的平均分,其余模型得分较低。测试表明,文心一言在历史知识的准确性上优于GPT系列,而GPT-4在提供详细答案方面优于其他模型。
摘要由CSDN通过智能技术生成

      最近,随着备受关注的文心一言正式免费向全社会开放,再次引起了社会层面对国产大模型的兴趣。

以文心一言为代表的国产大模型性能究竟如何?如果将它们相互比较,并且和GPT系列模型等国际前沿水平的LLM进行比较,会得到什么样的结果呢?笔者对此非常好奇,于是决定自己动手试试。

858655133b63dfc1299d367f6d6aed3c.gif

01

评估策略与数据准备

全面评估大型语言模型的性能是一件相当复杂的任务。不仅需要制定周全的策略,还需要准备大量的数据和评估程序,并结合自动化验证指标和主观评价来进行综合判断。

笔者目前还是一名学生,没有能力投入足够资源做全面评估,所以选择在一个垂直领域当中做一下力所能及的小数据集测试。

当下,笔者正在做一个知识图谱项目,整理了一份春秋战国时期的历史类知识图谱,根据图谱内容,正好可以整理出若干问题答案。于是,我们选取了20个与春秋战国相关的问题。

549f22baf8769fa742ec8a77ea95c499.png

这些问题的特点是:既具备知识性,又是历史数据(不是最新资讯,不用考虑信息是否已经存储在 LLM中的问题),同时还可以根据现有知识图谱直接获得正确答案。

因此,我们实际上是生成了一份样本数为 20 的问题答案对数据集(QA pair dataset)。

借助这个小小的数据集,我们用来对文心一言、讯飞星火、GPT-4和GPT3.5进行评估测试。

aaf4712b9dbecda5d4d714fe3a09e14c.jpeg

77fb8c7262316ec9b8b7e77589c8083a.gif

02

文心一言、讯飞星火、GPT-4与GPT3.5的问答结果

我们采用的评估方式为将这20个问题分别输入到以上四个大型语言模型(LLM)的网页版界面中,并要求它们进行回答。各个LLM都给出了答案,但效果不同。关于各个模型问答的详情请参考本文最后的 “06 附录:数据详情” 部分,此处,我们先看结果:

文心一言答对18题,正确率为90%

讯飞星火答对13题,正确率为65%

GPT-4答对12题,正确率为60%

GPT3.5答对11题,正确率为55%

经过与标准答案的对比,我们发现文心一言在准确率上远高于讯飞星火、GPT-4GPT3.5,达到了惊人的90%。而相较之下,讯飞星火、GPT-4和GPT3.5的准确率分别为65%、60%和55%,三者比较接近。

d9544f388da38a9236f4e0eba02ba241.gif

03

用户体验打分

此外,为了让实验数据更加细化以及实现多样化的评估,我们又人工对每个模型的答案进行了打分,其中每道题的满分为5分。打分的规则如下:

  • 5分:答案正确、完整,语言清晰易懂(在无法给出正确答案的同时,答案意为“不知道”也评为5分)

  • 4分:答案正确、不完整、语言清晰易懂

  • 3分:答案正确,语言晦涩、不流畅

  • 2分:答案部分正确、语言清晰易懂

  • 1分:答案少部分正确

  • 0分:答案错误

四个模型的打分情况详情请见:https://github.com/microsoft/SmartKG/blob/master/Resources/Data/Excel/input/SprintAutumn/大语言模型对20个问题的回答及打分.xlsx


总之,在打分评估方面,文心一言仍然显著领先,获得了出色的平均分4.3 分,讯飞星火平均分为3.0分,勉强及格。而GPT-4和GPT3.5的平均分分别为 2.8 和 2.35, 均未及格。

6bb3de7dd09c48e16d8e0802c2bbaebc.gif

04

比较、分析和猜想

我们发现,GPT3.5和GPT-4对历史事件的细节掌握较差,尤其是针对关于某个具体历史事件或人物的问题,文心一言可以给出准确答案时,GPT系列模型却回答错误。这可能是因为GPT系列模型的训练数据集并不包含春秋战国时期的具体信息。而文心一言作为百度开发的大型语言模型,其训练数据集很可能包含了大量关于中国历史的资料,从而对

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叶锦鲤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值