Google大模型居然自称是百度文心一言，简直太离谱了！-CSDN博客

文章报道了Google的人工智能模型Gemini在测试中被发现可能使用了百度文心一言的语料，引发关于数据清洗和模型训练伦理的讨论。作者指出，尽管存在修复，但仍存在漏洞，担忧AI生成内容可能对互联网造成污染。

摘要由CSDN通过智能技术生成

作者：段小草@知乎

这几天，AI圈里出了一个新闻，这一回的主角是AI届扛把子Google，他们家的人工智能大模型Gemini摊上事儿了！

12月18日，有微博大V@阑夕及《AI研究局》等自媒体爆出，在对谷歌Gemini进行测试时，如果用中文询问Gemini的身份，其会坚称自己是“百度”。若输入“小度”或“小爱同学”等提示词，就能把Gemini直接唤醒，不仅承认自己就是小度或者小爱，还询问用户有什么需要帮忙之事。

你就说刺不刺激，难道Google在偷偷用文心一言的数据做训练？

对此，段小草@知乎进行了测试，以下是他的原创内容：

目前来看，谷歌 Gemini 的中文语料肯定清洗了百度文心一言的输出，以及，英文语料似乎也清洗了 OpenAI 的输出。我没啥好评价的，唯一的要求是大家不要双标，我之前在某个群里讨论这个话题，有人极力地维护谷歌，真有必要吗？

记住，假的真不了，只要你用了别人的语料，总会有蛛丝马迹可以测试出来。紧急修复只能修复那些最表面的东西，刻意增加抹黑别人的语料更是放下碗骂娘的行为。我且告诉你 base64 可以用来套话，你修复完 base64 我们再去找别的测试途径。

你们当然可以说这是幻觉，毕竟大语言模型犯下的任何错都可以用幻觉解释。但还是那句话，不要双标，公司互换，评论过万，等国产大模型语料出问题时希望你们同样「客观理性善意理解」。百度的部分我上周六就已经发过详细测试了，先把我之前留的主要证据发过来（刚刚测试，Poe 版本依然没有修复）。后面加更一部分 OpenAI 内容的测试，请大家耐心看完。