百度正式推出文心一言及百家号文章代发 已可使用

百度正式推出文心一言及百家号文章代发 已可使用,会成为中国版ChatGPT吗?#文心一言 #chatgpt #热点

不久之前,百度在万众期待之下发布了自己的新一代大语言模型闻心一言,不知道大家对这样发布会怎么评价,反正我一位行业之外的朋友看完的第一反应是李老板的皮带是在哪里买的?不过李老板皮带的淘宝链接跟他到底为什么要在发布会上录屏,讲的原因先放在一边,现在最重要的事情是我们已经给大家搞到了文心一言的内测要求码,因为这段时间以来,很多我们的读者和观众都非常关心这个号称是中国版 ChatGPT 的东西到底什么样一个水平。

那我们今天就废话不多说,赶紧把文心烟拉出来溜溜,顺便跟前不久刚刚发布的 GPT 4 做个对比,看看我们国内的技术实力跟 Openi 到底是不是真的有那么大的差距?其实刚拿到内测码,第一件事我们做的是为了验证 Robin 老师发布会上展示的录屏问答是不是经过精挑细选了。我们就把发布会上的问题原封不动,重新问了温馨妍一遍,那么回答结果基本上是一模一样,而且反应速度也很快,只能说李老板还是比较实诚的,在这里没搞什么虚的东西。同时我们拿自己的叉 GPT plus 账号把这些问题又问了 GPT 4 一遍,结果可以说是大差不差,所以这一回合算是两边打了个平手那么简单。

热身之后,我们现在马上进入正题,给他们两个上强度。发布会上李彦宏说文心研有五大能力,文人创作,商业文案创作,树立逻辑推理,中文理解,多模态生成,猜车启动在多模态向上,因为 GB4 能力是输入图像而不是生成。现在也还没对公众开放,跟文心演对不太上,我们就先不比了。那剩下这四个维度,我们这次测试就来逐个击破,看看这两大模型干的就是到底哪更屌。

首先是文学创作,这项任务上,我们给他出的第一道题目是用机理太美写一首藏头诗,结果是文心言和 GPT 4 都没出什么岔子,而且从文采上看,感觉文心言做的是质量,甚至还要更好一点。那考了古诗,我们接着考作文,让那两个模型以故事的小黄花从出生到那年就飘着为开头,写一篇 500 字的文章,结果文心言这边交上来是个记叙文,睹物思人,写的是自己和爷爷的故事,挺完整也挺感人的,整个逻辑也说得通。美中不足的就是这个唱周杰伦歌的人居然已经当爷爷了,不得不说,我们又被伤害到那。

gpt4 这边教的是个童话故事,一朵能给人带来快乐的小黄花。但它有很直观的两个硬伤,第一个没写完,第二个字数写超了,总结就是纹心眼的结果更工整。这第四想象力更丰富,但是没达到要求。不得不说,这跟我们之前的预期好像不太一样,难道真的是本地的和尚会念经?中国人搞出来的东西写中文就是屌?我们还是趁热打铁,马上进入第二回合商业文案的创作,这次的题目是让他们给炸鸡店写一篇广告文案,结果是两边给出的回答依然都不错,文盛言更有条理,更清晰。

gpt4 这边情绪更饱满,而且还增加了一些落地的方案,就是看着有点乱。对于这两个回答,不知道大家觉得哪个更好?而如果只看这两个回答,依照我们的评判是双方不分伯仲,那为了给他们分出个高下,我们就又在这个问题下面接着展开问了几个问题。不幸的是,温馨依然没有扛住,开始拉了。我们给的问题是让他们接着想 5 句炸鸡店的广告文案,然后GPT 4给了 5 句中规中矩的,虽然比不上4A,但好歹也不用花钱反光文心言这边实在就有点太过分了,他直接把上面那篇文案拆成了 5 句话扔给我,我再怎么引导,再怎么问他还是只有这 5 句话。

所以这一轮文心言在商业文案的创意上明显不如 GPT 4,比分暂时打成了 1: 1,我们接着进行下一轮测试,梳理逻辑推理。首先我们说了一下大家喜闻乐见的鸡兔同笼问题,监控是 GPT 4 和文心言解决起来都比较轻松,但是当我们增大难度换一道大学数学问题之后,二者的表现就出现了明显的差异。我们说的提示让他们两个分别计算高斯积分,结果是GPT 4给出了详细的解题步骤。而闻声一言算到一半,自己突然鬼畜了起来,最后输出的 latex 完全是牛头不对马嘴。

我们接着又测试了一道基础编程问题,写一个冒泡排序算法,结果乍一看,文心言和 GPT 4 似乎都给出了正确的结果,但仔细一看,文心言的问题很大。首先说代码注释理说 n 是数组长度,可是你没用长度函数把它求出来,还有你也没把排序后的结果返回。反观那边, GPT 4 代码不仅准确无误,还给出了示例,所以显然这一回合文心语言输的比较惨烈, 2: 1 了。

那接下来我们再回到文科,比拼一下文心言和GPT 4的中文理解能力。因为在发布会之前,百度一直在强调自己更懂中文,所以这一次我们就专门选择了一些只有中文互联网用户才懂这个,看看能不能发挥出它的最大优势。只是没想到一上来就遭遇了滑铁路,就这个君要撑死的这种笑话,不管我们怎么使劲提示,文心一言一直都没反应过来,那反观记布力士,经过几次提示,已经意识到了笑点。

接下来我们又试了另一个来自某 8 的问题。对这个问题,文心言给出的回答是,线下结论不一定。然后再分析为什么可以看出来他是知道吕布马上无敌典尾马下无敌说的是什么意思的,但是他没有 get 到吕布奇点尾这个歌,只是简单的理解成与物家典韦天下无敌。

而同样的问题, GPT 4 是这么回答的,感觉像是咱们刚开始学文言文的时候写出来的东西,他没有给出明确的结论,只是含蓄地表达了不行,还是老毛病,看似有文采,但实际上有点乱。这两个回答只能说算半斤八两,那不死心。我们最后又追问了一个问题,问中文语境里很常见的一句话,我母鸡是什么意思,结果两边都没能准确的回答出来,所以这一局最终还是算 5 五开吧。总结一下,在我们的四轮测试里,文心颜色是拿到了 1 胜 1 平 2 护的战绩,看上去好像也还没那么长。不过其实除了前面的几轮之外,我们也做了很多其他的测试题,其中也包括一些 lobby 老师在发布会上没着重题的比,有翻译续写、连续对话、理解上下文等等。而经过这些测试,我们的总体感觉是,如果你以 GPT 4为标杆的话,文西演在大部分能力上都还存在着一定差距,而他身上唯一比较明显的优势是在文言文相关的能力上,这个真不是骨头里挑鸡蛋。比如发布会上演示的那个洛阳指挥的问题,文心言给出的结果就完胜这第四。

在这个问题上,这第四就给出了完全错误的答案,这个典故跟白居易没有半毛钱的关系。再比如卧冰球里这个成语,文心言告诉我典故的书数准确无误。而这批事又开始瞎扯了,说这个故事来自战国策,关于孟尝君,而且他讲的这个故事里面哪有鲤鱼和兵呢?即使我提示他错了,他还是在胡说八道。再比如,我又问哪些股市提到了过秦论的作者贾义,文心言列出的条目很多,总体也是正确的,而GPT 4竟然告诉我白居易的离原上草写的就是假意,其中草代表的就是甲乙。我不知道说什么好,那只能说如果甲乙本人看到,估计都要说一声草。我们觉得百度在古文上的这种优势,应该是因为他训练时用的中文饮料库更好。不管是百度百科还是古诗文网里的中文古典知识内容都非常全面,而相比之下,中文为 100 个,在这方面就非常缺乏,所以让百度更胜一筹。所以总结一句,不是我们喜实事求是的说,文心一言好像也没有想象中的那么差,特别是在中文能力上,比不上记不记事这个不奇怪,也不是什么丢人的事情。在发布会上连红也坦率地承认了,落后挨骂也可以理解,但还是得说一句,国内总得有人先去迈出这第一步,只不过这一次刚好是百度。特别是不知道大家有没有发现, Openai 这家公司最近两年正在变得越来越不open。 19 年他们发布 GPT 2 的时候,代码还是开源的,一年之后 GPT 3发布,公开的就只有参数数量跟数据集的范围了。而到今年 ChatGPT 和GPT 4 发布,直接连参数数量都不给了,甚至还要付费才能体验。

所以现在对于国内的科技公司而言,要想导出类似的大模型,能做的就只有自己闷头苦干了,甚至在未来这条路可能还会越来越艰难。看到目前这个差距的对比,我相信大家在失望同时也会产生一种危机感,万一将来哪一天连 AI 也被国外查过字了,那该怎么办?所以,骂归骂,喷归喷,我们最终还是希望不管是百度还是别的国内公司,能尽快找到方法,冲出一套自己的路,在世界上站稳脚跟。因为中国的人工智能产业需要更多这样的破局者出现。OK,这是本期视频的全部内容了,如果你有需要收获的话,别忘了点赞、关注、留个评论,我们下期再见。

本文由:百收网络公司编辑,喜欢点上面头像关注,请勿转载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百收网络公司

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值