首先,我先向字节跳动道歉哈。
经过这么一对比,我感觉字节跳动用 OpenAI 来训练自己的大模型根本不是个事。
大家都在相互薅羊毛啊。
昨天看到一条消息谷歌大模型中文语料即使不是套壳百度的话,也是在拿百度文心大模型来训练自己。
互联网大 V 阑夕在微博发了一条消息:
之前看到有人说这个我以为是恶搞,然而没想到是真的⋯⋯这是我自己刚刚实测的截图,用中文这么问 Google 的 AI 产品 Gemini 之后它会回答自己是文心一言。
阑夕在评论区强调:没有任何前置对话,上来就这么问,Gemini 直接就是这么回答的。
所以,这并不是对话诱导出来的结果。
然后今天早上我抱着试一试的态度,打开了 POE ,选择了 Gemini-Pro 聊天模式,测试了一下。
果然结果如下:
我问你属于哪家公司?它回答说自己属于百度公司。
另外,我看科技媒体量子位专门使用 Bard 测试了一回。
在 Bard 测试当中,并没有提及百度和文心大模型。
后来,直接从 Gemini 官方给出的开发环境入口进行测试。在谷歌 AI Studio 中,Gemini-Pro 直接挑明了:我在中文的训练数据上使用了百度文心。
最后还有网友提供截图,说 API 用的就是文心。
当然了,这并不一定套壳或者抄袭,就像是字节跳动用 OpenAI 训练自己的大模型一样,谷歌也有可能在这样做。
所以,可以看出,在激烈的竞争层面,谁也不比谁道德,谁也不比谁更有底线。
走捷径,是人类的本性。
中科院院士、人工智能领域泰斗级专家张钹曾提到二者的区别:ChatGPT 生成的语言是外部驱动,而人类语言是在有自己意图的情况下驱动。
“未必是谷歌大模型真的抄袭了什么,而是现有互联网语料本就被各界互相使用。”
我看有人说:尤其是大模型经过一年多的发展之后,各个平台,比如知乎、微博、小红书等内容平台有很多语料都由大模型生成,或者至少写了一部分,而大厂在更新模型时,也会搜集网上数据,但很难做好质量辨别,因此 “很可能把大模型写的内容混入训练数据中去。
聊到这里,我不得不感慨一句:我们现在确确实实已经生活在了硅基生命和碳基生命混合的世界当中了,真假难辨。
我个人的看法是谷歌大模型中文语料,大概率肯定拿百度文心来训练了。
对此,大家怎么看呢?
点击下方公众号卡片,关注我
在公众号对话框,回复关键字 “1024”
免费领取副业赚钱实操教程