文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现-CSDN博客

本文链接：https://blog.csdn.net/YeJuliaLi/article/details/132749686

本文通过一个包含20个春秋战国历史问题的数据集，对文心一言、讯飞星火、GPT-4和GPT3.5进行问答测试。结果显示，文心一言以90%的正确率领先，其次是讯飞星火（65%）、GPT-4（60%）和GPT3.5（55%）。在用户体验打分方面，文心一言同样表现出色，获得4.3分的平均分，其余模型得分较低。测试表明，文心一言在历史知识的准确性上优于GPT系列，而GPT-4在提供详细答案方面优于其他模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近，随着备受关注的文心一言正式免费向全社会开放，再次引起了社会层面对国产大模型的兴趣。

以文心一言为代表的国产大模型性能究竟如何？如果将它们相互比较，并且和GPT系列模型等国际前沿水平的LLM进行比较，会得到什么样的结果呢？笔者对此非常好奇，于是决定自己动手试试。

评估策略与数据准备

全面评估大型语言模型的性能是一件相当复杂的任务。不仅需要制定周全的策略，还需要准备大量的数据和评估程序，并结合自动化验证指标和主观评价来进行综合判断。

笔者目前还是一名学生，没有能力投入足够资源做全面评估，所以选择在一个垂直领域当中做一下力所能及的小数据集测试。

当下，笔者正在做一个知识图谱项目，整理了一份春秋战国时期的历史类知识图谱，根据图谱内容，正好可以整理出若干问题答案。于是，我们选取了20个与春秋战国相关的问题。

这些问题的特点是：既具备知识性，又是历史数据（不是最新资讯，不用考虑信息是否已经存储在 LLM中的问题），同时还可以根据现有知识图谱直接获得正确答案。

因此，我们实际上是生成了一份样本数为 20 的问题答案对数据集（QA pair dataset）。

借助这个小小的数据集，我们用来对文心一言、讯飞星火、GPT-4和GPT3.5进行评估测试。

文心一言、讯飞星火、GPT-4与GPT3.5的问答结果

我们采用的评估方式为将这20个问题分别输入到以上四个大型语言模型（LLM）的网页版界面中，并要求它们进行回答。各个LLM都给出了答案，但效果不同。关于各个模型问答的详情请参考本文最后的 “06 附录：数据详情” 部分，此处，我们先看结果：

文心一言答对18题，正确率为90%

讯飞星火答对13题，正确率为65%

GPT-4答对12题，正确率为60%

GPT3.5答对11题，正确率为55%

经过与标准答案的对比，我们发现文心一言在准确率上远高于讯飞星火、GPT-4和GPT3.5，达到了惊人的90%。而相较之下，讯飞星火、GPT-4和GPT3.5的准确率分别为65%、60%和55%，三者比较接近。

用户体验打分

此外，为了让实验数据更加细化以及实现多样化的评估，我们又人工对每个模型的答案进行了打分，其中每道题的满分为5分。打分的规则如下：

5分：答案正确、完整，语言清晰易懂（在无法给出正确答案的同时，答案意为“不知道”也评为5分）
4分：答案正确、不完整、语言清晰易懂
3分：答案正确，语言晦涩、不流畅
2分：答案部分正确、语言清晰易懂
1分：答案少部分正确
0分：答案错误

四个模型的打分情况详情请见：https://github.com/microsoft/SmartKG/blob/master/Resources/Data/Excel/input/SprintAutumn/大语言模型对20个问题的回答及打分.xlsx

总之，在打分评估方面，文心一言仍然显著领先，获得了出色的平均分4.3 分，讯飞星火平均分为3.0分，勉强及格。而GPT-4和GPT3.5的平均分分别为 2.8 和 2.35，均未及格。

比较、分析和猜想

我们发现，GPT3.5和GPT-4对历史事件的细节掌握较差，尤其是针对关于某个具体历史事件或人物的问题，文心一言可以给出准确答案时，GPT系列模型却回答错误。这可能是因为GPT系列模型的训练数据集并不包含春秋战国时期的具体信息。而文心一言作为百度开发的大型语言模型，其训练数据集很可能包含了大量关于中国历史的资料，从而对