实测国内AI大模型问答效果

本文评估了文心一言、通义千问和百川智能的问答能力,发现它们在写文章、汉译英、方言理解上表现良好,但在处理复杂场景、特定领域知识和数学推理方面存在不足。
摘要由CSDN通过智能技术生成

随着ChatGPT热度的攀升,越来越多的公司也相继推出了自己的AI大模型。按照github工程awesome-LLMs-In-China所列举的,现如今国内AI大模型已达243个,比较著名的有文心一言、通义千问等。各大应用也开始内置AI玩法,如抖音的AI特效。下面列举一下实测文心一言,通义千问,百川智能的问答情况如何。


1、让AI大模型自暴缺点

这个想法就源于写这个博客的主题,既然大模型能自己写文章,干嘛不让它围绕“AI有时也很智障”这个主题自己写。

  • 文心一言
    在这里插入图片描述
  • 通义千问
    在这里插入图片描述
  • 百川智能
    在这里插入图片描述
    从上面三个大模型写的文章看出,写得都挺不错的,逻辑通顺;现指出AI大模型使用现状,然后依次指出缺点(主要有:输出语义模糊,处理长文本或复杂场景有局限性,处理特定领域知识不足等),最后说明,虽然有缺点,但也不能完全否定大模型的价值,并指出未来会不断改进。总体来说,三个大模型回答得都不错。

2、汉译英

  • 文心一言
    在这里插入图片描述
    在这里插入图片描述
  • 通义千问
    在这里插入图片描述
    在这里插入图片描述
  • 百川智能
    在这里插入图片描述
    在这里插入图片描述
    可以看出文心一言和通义千问都回答得很具体,准确理解了中文意思,然后给出翻译,而百川智能直接给出英语翻译,没有过多解释。值得表扬的是通义千问还给出了多个选择供不同场景适用,偏直译,偏文学,偏意境等,非常不错。

3、方言理解

  • 文心一言
    在这里插入图片描述
  • 通义千问
    在这里插入图片描述
  • 百川智能
    在这里插入图片描述
    都回答得不错,理解到位。

4、关于新闻

  • 文心一言
    在这里插入图片描述
  • 通义千问
    在这里插入图片描述
  • 百川智能
    在这里插入图片描述
    可以看出通义千问最优秀,全回答正确,具体的比分都正确,文心一言也回答正确,只是没有说明具体比分,而百川智能在回答常规赛和加时赛的时候这里说错成了2-2平(实际是常规结束是2-2,加时赛时是3-3平)。

5、数学推理能力

  • 文心一言
    在这里插入图片描述
  • 通义千问
    在这里插入图片描述
  • 百川智能
    在这里插入图片描述
    可以看出,文心一言和通义千问回答正确,百川智能回答错误。

6、总结

写文章能力,三个大模型都不错,语序通顺,逻辑正确,条理清晰。汉译英能力,通义千问最强,能扩展给出更多语境翻译,百川智能偏弱,偏直译。方言理解,可能我给的例子比较常见,测试下来,三个模型都能给出很好的解释。时政新闻方面,百川智能偏弱,回答错误。数学推理能力,也是百川智能偏弱一点,回答错误。

  • 23
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值