鱼羊 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
鹅厂的通用大模型,终于来了!
就在今天,腾讯千亿参数大模型混元正式亮相,号称全自研,具备3大特点:
中文创作能力强,同时具备复杂逻辑推理和任务执行的能力。
有意思的是,腾讯表示,在今天正式发布大模型之前,不少人已经在腾讯相关APP中用过混元大模型的能力了。
例如,早在谷歌云发布AI相关的会议总结产品之前,腾讯会议早就上线了基于智能录制的智能纪要、智能章节、发言人回顾等能力。
这些个功能背后,正是混元大模型的能力。
既然如此,这个在腾讯产品中“摸爬滚打”出来的大模型究竟长啥样?
我们已经get了混元大模型的测试资格,这就来试一试它的真实水平。
混元大模型实测效果如何?
混元大模型,现在可以在微信小程序上申请体验,也就是混元大模型的Chat版。
腾讯表示,混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。
既然如此,我们就挑几个有代表性的方向,来看看它的回答效果。
逻辑推理
先来初步挑战一下脑筋急转弯benchmark,小明妈妈的三个孩子中,老三叫什么:
混元成功推断出了“小明”的名字,看起来脑筋还是比较活络的。
再来测测弱智吧benchmark,“午餐肉可以晚饭吃吗”。
它真的,我哭死,关心我饮食健康的程度已经超过肥宅本人了。
数学能力
腾讯还现场测试了一波模型做数学题的能力:
买一杯咖啡,上午喝了一半