斯坦福团队被曝抄袭清华国产大模型,已删库跑路!!

金磊 西风 发自 凹非寺
量子位 | 公众号 QbitAI

家人们,大模型圈儿出了个惊天大瓜6b8a0c2ed16ca5212e13b0cd05fbb6ad.png——

斯坦福AI团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果——模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI圈内都惊呆了。

ea1866697c626303fdae489b9f4aff5a.gif

斯坦福的这项研究叫做Llama3-V,是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。

aa15ea2144295364500dd5de8cb5c1a0.png

Llama3-V的3位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX的大厂相关背景,这个项目短短几天就受到了不小的关注。

甚至一度冲上了HuggingFace趋势榜首页:

17642689633ad86da487946270ec906b.png

然而,戏剧性的一幕开始上演了。

有位细心的网友发现,咦?这“配方”怎么如此的熟悉?

然后他定睛一看,好家伙,这不就是MiniCPM-Llama3-V 2.5(出自清华系明星创业公司面壁智能)嘛。

于是这位网友便跑到面壁智能GitHub项目下开始爆料了:

你们家大模型被斯坦福团队抄袭了!

21b888293a8ec00cb34d295225c5d4a5.png

并且他还附上了一堆的证据,最直接的莫过于这张2个模型代码的对比图了:

8aefe2a4da3f56d0b5628529571575c0.png

Emmm……用这位网友的话来说就是:

模型结构、代码、配置文件,简直一模一样,只是变量名变了而已。

至于为什么这位网友要跑到面壁智能GitHub项目下面留言,是因为他之前已经给Llama3-V作者留过言了,但斯坦福团队的做法竟是删库跑路……

没错,现在不论是GitHub还是HuggingFace,统统都是404

200e2282a316fbc188533171a778a9da.png

并且这事现在还在持续发酵的过程中,网上吃瓜的群众也是越来越多。

c04a79ad6c04525b320322fd3cd5a374.png

那么我先来一同回顾一下这件drama事情的始末。

“代码和架构一模一样”

正如刚才所述,一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.5,跑到面壁智能的GitHub主页提醒团队注意,并把关键证据都一一截图列举整理了下来,这才有了整个抄袭门的还原现场。

以下是来自这位网友的证据。

证据一,Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同:

133f4967cb686c0bc80b962979b4b1a5.png

看下面的例子,配置文件就改了图像切片、分词器、重采样器和数据加载等格式化和变量名:

e0d59556125408792c80ae0386b3d078.png

Llama3-V作者表示参考了LLaVA-UHD架构,在ViT和LLM等选择上有一些差异。但实际上,网友发现他们的具体实现在空间模式等很多方面都与LLaVA-UHD不同,却出奇与MiniCPM-Llama3-V 2.5一致。

甚至,Llama3-V还用了MiniCPM-Llama3-V 2.5的分词器,连MiniCPM-Llama3-V 2.5定义的特殊符号都能“巧合”实属离谱。

34e9c57392602d5a6ac8c4fe05e56f7d.png

证据二,网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。

Llama3-V作者给的回复是这样婶儿的,说是用的面壁智能上一代MinicPM-V-2项目的:

6c354967369d85fbb39e91db817feb04.png

但事实却是,HuggingFace中,MiniCPM-V2与MiniCPM-Llama3-V 2.5分词器分别是两个文件,文件大小也完全不同。

MiniCPM-Llama3-V 2.5的分词器是用Llama3分词器加上MiniCPM-V系列模型的特殊token组成,而MiniCPM-V2的发布都在Llama3开源之前,怎么会有Llama3分词器。

74568efa2ca388404d4fa4f579e583ec.png
d20581e74a80add84314d25cccf22911.png

证据三,Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。

而且,他们似乎对MiniCPM-Llama3-V 2.5架构或他们自己的代码都不完全了解。

感知器重采样器(Perceiver resampler)是单层交叉注意力,而不是双层自注意力。但是下图所示Llama3-V的技术博客里作者的理解很明显是错的。

4e0a64c7af7737bf64f2b04f26dfd266.png
0636bea72aef2639b2be51faabae5e70.png
ad8424a471b4a9243a10ec442f2e4ed6.png

SigLIP的Sigmoid激活也不用于训练多模态大语言模型,而仅用于预训练SigLIP。

视觉特征提取不需要Sigmoid激活:

2a441e23ce11dd30317f9276992b9605.png
30ae54cff5f9460848632f831a8ed3bd.png

40da0d2dd578979b0cff0e6ece2f2aaf.png

基于以上三点事实,这位网友认为足以证据证明Llama3-V项目窃取了MiniCPM-Llama3-V 2.5项目的学术成果。

但还没完,他随后又补充了两点证据。

几天前,当这位网友尝试运行Llama3-V时,发现他们提供的代码无法与HuggingFace的checkpoint一起使用,反馈问题没有得到作者回复。

于是网友把从HuggingFace下载的Llama3-V模型权重中的变量名改成了MiniCPM-Llama3-V 2.5的,惊奇发现模型居然可以用MiniCPM-V代码成功运行。

83e425e446bd2ed8fdae7510cb378add.png

此外,如果将高斯噪声(由单个标量参数化)添加到MiniCPM-Llama3-V 2.5的checkpoint,结果就是会得到一个行为与Llama3-V极其相似的模型。

fc33ed5cb7512fd2ce0afa50d98bf4e5.png

收到网友的提醒后,MiniCPM-Llama3-V 2.5团队这边也迅速展开了调查,他们按照网友的在GitHub上的说明,使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代码和配置文件正确获取了推理结果。

于是,一个更为关键性的证据出现了。

Llama3-V在一些未公开的实验性特征上表现出与MiniCPM-Llama3-V 2.5高度相似的行为,而这些特征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。

例如,识别清华简

MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简,这是一种非常罕见、于战国时期写在竹子上的中国古代文字。

训练图像是从最近出土的文物中扫描出来的,由MiniCPM-Llama3-V 2.5团队进行了标注,尚未公开发布。

而Llama3-V的识别情况和MiniCPM-Llama3-V 2.5极为相似。

96ce0cbb9f14f0d430a8035542fa9175.png

识别错误的情况竟也出奇一致:

9ea86359323205c01d99e345ced2c298.png

MiniCPM-Llama3-V 2.5团队还在1000 张竹简图像上测试了几种基于Llama3的视觉-语言模型,并比较了每对模型的预测精确匹配。

结果,每两个模型之间的重叠为零,而Llama3-V和MiniCPM-Llama3-V 2.5之间的&&重叠达到了惊人的87%**。

此外,MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的错误分布。Llama3-V和MiniCPM-Llama3-V 2.5分别做出 236和194个错误预测,重叠部分为182个。

且按照网友在GitHub上的指令获得的MiniCPM-Llama3-V2.5-noisy显示出与Llama3-V几乎相同的定量结果,真令人匪夷所思……

0f7b4de3b79877c3fb2eeb8caf92fb3d.png

在另一个MiniCPM-Llama3-V 2.5内部数据上训练的未公开功能——WebAgent上,也出现了同样的情况。

Llama3-V甚至和MiniCPM-Llama3-V 2.5团队新定义的WebAgent模式中犯的错误都一样。

4830dc6ae1c480b492a598c48e1c25fb.png

鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示很难将这种不寻常的相似性解释为巧合,希望Llama3-V作者能对这个问题给出一个正式的解释。

975f16ad1ce080ef9460f0d7d13e8f6e.png

斯坦福团队已删库跑路

虽然斯坦福的2位本科生已经下架了几乎所有与之相关的项目,但其实在此之前,他们最初在面对质疑的时候还是做出了些许的解释。

例如他们强调,Llama3-V这项工作的时间是要早于面壁智能的MiniCPM,只是使用了他们的tokenizer。

c5473bedc6550a91f095f4c098a44ae6.png

不过作者对Medium上的声明还是做了保留:

非常感谢那些在评论中指出与之前研究相似之处的人。

我们意识到我们的架构非常类似于OpenBMB的“MiniCPM-Llama3-V 2.5,他们在实现上比我们抢先一步。

我们已经删除了关于作者的原始模型。

808d1e982160b27600e991f7454f5ffc.png

对此,一部分网友表示,既然选择删掉项目,那么就表示确实存在一定的问题。

不过另一方面,对于抄袭这事也有不一样的声音——

MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗?不过连tokenizer都直接拿来用就应该不算是借鉴了。

而就在刚刚,另一个戏剧性的事情发生了。

斯坦福的作者在中午时间做出了最新的回应:

48811bda7d531588c4f2b86b1c47344b.png

但现在……这条回应又删掉了68a4d511b7196e97f101bc0a11f92341.png

而面壁智能这边,CEO李大海也做出了正式回应:

fc57d01c98a13fdc7fa06070a786482e.jpeg

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
斯坦福大学开源的狗模型Doggo是一个使用SolidWorks软件进行建模的机器狗。SolidWorks是一种三维计算机辅助设计(CAD)软件,它是一种强大且广泛应用于工程设计领域的工具。通过使用SolidWorks,研究人员能够创建复杂的机械模型,进行仿真和分析。 斯坦福的Doggo是一个机械狗模型,其设计灵感来自于机器人科技。该模型采用了四肢独立驱动的设计,使其具有高度的可移动性和灵活性。通过SolidWorks软件,研究人员能够精确地设计和模拟这个机器狗的运动轨迹。 使用SolidWorks软件,研究人员能够对机械狗的结构进行详细建模。他们可以定义每个零部件的几何形状、尺寸和材料属性,并将它们组装成一个完整的机器狗模型。此外,通过SolidWorks软件,他们还能够对机器狗进行运动学和动力学分析,以评估其性能和行为。 SolidWorks软件还提供了强大的仿真和测试工具,研究人员可以使用这些工具验证机械狗的设计,并对其进行优化。他们可以进行应力和位移分析,以确保机械狗的结构在运动时不会发生损坏。此外,他们还可以模拟机械狗的步态和运动模式,以更好地理解其行为和性能。 总的来说,通过SolidWorks软件,斯坦福大学的研究人员能够准确地建模和模拟他们设计的机械狗模型。这为他们的研究提供了强有力的工具,使他们能够更好地了解机器狗的运动特性和性能,并为未来的机器人科技发展做出贡献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值