一手实测腾讯混元大模型:重逻辑降幻觉,鹅厂自家应用已加持

鱼羊 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

鹅厂的通用大模型,终于来了!

就在今天,腾讯千亿参数大模型混元正式亮相,号称全自研,具备3大特点:

中文创作能力强,同时具备复杂逻辑推理任务执行的能力。

0bd9393f7f0d7fc9ed516e749b9c4cfa.png

有意思的是,腾讯表示,在今天正式发布大模型之前,不少人已经在腾讯相关APP中用过混元大模型的能力了。

557c0362b594344db79d5ead1be67eeb.png

例如,早在谷歌云发布AI相关的会议总结产品之前,腾讯会议早就上线了基于智能录制的智能纪要、智能章节、发言人回顾等能力。

4fa5972fe2f9a4115c0486d46b8ac35a.png

这些个功能背后,正是混元大模型的能力。

既然如此,这个在腾讯产品中“摸爬滚打”出来的大模型究竟长啥样?

我们已经get了混元大模型的测试资格,这就来试一试它的真实水平。

混元大模型实测效果如何?

混元大模型,现在可以在微信小程序上申请体验,也就是混元大模型的Chat版。

af76a91552519c597f6cbd764bba8493.png

腾讯表示,混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。

既然如此,我们就挑几个有代表性的方向,来看看它的回答效果。

逻辑推理

先来初步挑战一下脑筋急转弯benchmark,小明妈妈的三个孩子中,老三叫什么:

e5f0924ad79b176f062bcfd8ae0c827f.jpeg

混元成功推断出了“小明”的名字,看起来脑筋还是比较活络的。

再来测测弱智吧benchmark,“午餐肉可以晚饭吃吗”。

9b901dc43a5d5c918bbec628c1101e6b.jpeg

它真的,我哭死,关心我饮食健康的程度已经超过肥宅本人了。

f6c0eabe7ea4d40e81bf0b6ce8e2b511.png

数学能力

腾讯还现场测试了一波模型做数学题的能力:

买一杯咖啡,上午喝了一半࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值