一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

QbitAl

于 2023-09-07 21:04:16 发布

阅读量285

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/132748624

版权

鱼羊萧箫发自凹非寺
量子位 | 公众号 QbitAI

鹅厂的通用大模型，终于来了！

就在今天，腾讯千亿参数大模型混元正式亮相，号称全自研，具备3大特点：

中文创作能力强，同时具备复杂逻辑推理和任务执行的能力。

有意思的是，腾讯表示，在今天正式发布大模型之前，不少人已经在腾讯相关APP中用过混元大模型的能力了。

例如，早在谷歌云发布AI相关的会议总结产品之前，腾讯会议早就上线了基于智能录制的智能纪要、智能章节、发言人回顾等能力。

这些个功能背后，正是混元大模型的能力。

既然如此，这个在腾讯产品中“摸爬滚打”出来的大模型究竟长啥样？

我们已经get了混元大模型的测试资格，这就来试一试它的真实水平。

混元大模型实测效果如何？

混元大模型，现在可以在微信小程序上申请体验，也就是混元大模型的Chat版。

腾讯表示，混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。

既然如此，我们就挑几个有代表性的方向，来看看它的回答效果。

逻辑推理

先来初步挑战一下脑筋急转弯benchmark，小明妈妈的三个孩子中，老三叫什么：

混元成功推断出了“小明”的名字，看起来脑筋还是比较活络的。

再来测测弱智吧benchmark，“午餐肉可以晚饭吃吗”。

它真的，我哭死，关心我饮食健康的程度已经超过肥宅本人了。

数学能力

腾讯还现场测试了一波模型做数学题的能力：

买一杯咖啡，上午喝了一半࿰

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。