斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

f6b9818d6059eeb6189140dc4af9e4d3.gif

acb52c8ad0a60f061d28afa7deefc314.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5

839ab0b2e68f4832c2a470696a0e2e06.gif

在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?

5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练出一个超强的多模态模型,效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当,但模型小 100 倍。

da74f4b84f5825ce8d5f21bf22df4048.png

  • Github 项目链接:https://github.com/mustafaaljadery/llama3v(已删库)

  • HuggingFace 项目链接:https://huggingface.co/mustafaaljadery/llama3v(已删库)

用这么少的成本,创造出了如此惊艳的成果,Llama3-V 在推特上迅速爆火,浏览量突破 30 万,转发超过 300 次,还冲上了「 HuggingFace Trending 」Top 5。

5986357a5cffbf2e91362c18dd48598d.png

但是没发布两天,Llama3-V 就遭遇了重重质疑。有人指出,Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

MiniCPM-V 是面向图文理解的端侧多模态大模型系列。MiniCPM-Llama3-V 2.5 是该系列的最新版本。其多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型。OCR 能力及指令跟随能力进一步提升,并支持超过 30 种语言的多模态交互。这样的优秀性能,不仅让 MiniCPM-Llama3-V 2.5 成为受大家推崇的模型,或许也成为了 Llama3-V 的「模仿」对象。

a36efe4fa81eea330a3243532a79f592.png

项目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

可疑的作者答复

HuggingFace 用户 JosephusCheung 在项目的评论区中提出问题,Llama3-V 是否在未提及的情况下使用 openbmb/MiniCPM-Llama3-V-2.5 进行了训练。而作者回复表明,Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的预训练 tokenizer,并且是在它发布前就开始了这项工作。这样的解释明显出现了时间错位,加重了大家的怀疑。

5de0eee0f58daf19b299a68319029f30.png

35c99b0e16b490f7638df9875bd85568.png

细扒其中猫腻

此外,还有一位名为 Magic Yang 的网友也产生了质疑,他对于这两个模型的相似性也有着更深的洞察。

他首先在 Llama3-V 的 GitHub 项目 Issue 中发布了他的疑问,没想到 Llama3-V 的作者们很快就删除了质疑帖。

516aad481f7ae5776e541a2f50b91120.png

在这个 Issue 中,他首先提出,Llama3-V 与 MiniCPM- Llama3-V 2.5 具有相同的模型结构和配置文件,只是变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5,只是进行了一些格式上的修改,包括但不限于分割图像、tokenizer、重采样器和数据加载部分。

9596412599867c6da4aa8fec58429764.png

2181fb9c5042b85e660db3e2057169ab.png

Llama3-V 的作者立马回复,称 Llama3-V 在架构上参考的是 LLaVA-UHD,并列出了在 ViT 和 LLM 选择上与 Mini CPM-Llama3-V 2.5 的差异。

但 Magic Yang 发现,相比 LLaVA-UHD 所用的方法,Llama3-V 与 MiniCPM-Llama3-V 2.5 可谓是一模一样。特别是 Llama3-V 使用了与 MiniCPM-Llama3-V 2.5 相同的,连 MiniCPM-Llama3-V 2.5 新定义的特殊符号都「抄」上了。

e107ec1fa58a2a377583084a428a04ca.png

于是,他向作者提问,为什么 Llama3-V 在 MiniCPM-Llama3-V2.5 项目发布之前,就未卜先知似的拿到了其 tokenizer?这似乎算是追问了作者对 JosephusCheung 的回答。

Llama3-V 作者回答称,他参考了 MiniCPM-V-2 的 tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原来版本中的特殊符号,因此 Llama3-V 的代码中保留了这个符号,但 Llama3-V 与 MiniCPM-Llama3-V2.5 是完全不同。

9dcde8eff9e6620b8bf5cf6b5ef444df.png

但事实是,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在 Hugging Face 里是两个文件,文件大小也完全不同,也不包含 Llama3-V 所用到的与 Llama 3 有关的 tokenizer。

1c964d14e9c44c6c15ca26260c694561.png

04d13f1d892f2f3d9b03c4048fd79fa5.png

Magic Yang 还发现了 Llama3-V 的作者在 Hugging Face 上传项目时,直接导入了 MiniCPM-Llama3-V 2.5 的代码,后来才把一些文件里的名称替换为 Llama3-V。

fe0c150c02ea4ca40f58109f0c9fb19e.png

于是,Llama3-V 的作者的作者再次回复,称 Magic Yang 的指控大错特错。首先,想要运行 HuggingFace Transformer,需要给模型写配置文件,但是他们恰好发现 MiniCPM 的配置能用,因此,他们使用了与 MiniCPM 相同的配置。其二,Llama3-V 的模型架构 SigLIP 的灵感来源于 Idéfics ,作者之前也提到,Llama3-V 模型架构参考的 LLaVA-UHD 同样如此,并且在视觉代码方面,他们借鉴了 Idéfics ,并非照搬 MiniCPM。

d303cbc60e0b549754f3a7a30374a714.png

更令人惊讶的是, Magic Yang 发现 Llama3-V 项目的作者似乎并不理解他们自己的代码,或许也不明白搬来的 MiniCPM-Llama3-V 2.5 架构中的细节。

感知器重采样器(Perceiver Resampler)使用的是单层交叉注意力,而非双层自注意力。然而,下图中的 Llama3-V 技术博客中的描述明显存在误解。

b256e449cb91e9992ed218eef92be77a.png

Llama3-V 的技术博客 

55d639bc37fcde0d33764c5670ca9ede.png

Llama3-V 的代码

此外,SigLIP 的 Sigmoid 激活功能并不用于训练多模态大语言模型,而是仅在 SigLIP 的预训练过程中使用。看来,作者对于自己的代码理解还是有很大偏差的。

020d3b5ed732028fc4045a433c6cb85f.png

Llama3-V 的技术博客 

7ee7015f7dd9b967aede7bb97a38f343.png

Llama3-V 的代码

对于清华 NLP 实验室和面壁智能团队特别采集和标注,从未对外公开的专有数据,Llama3-V 的表现也非常出色。「清华简」是一种非常特殊且罕见的中国战国时期的古文字,而美国模型 Llama3-V 不仅认识中国古文字,在认错字的时候,也和 MiniCPM-Llama3-V 2.5 一模一样。

28055e0ef830a5e60d6979aa9f6f6bcf.png

有网友用 1000 张竹简图像对同类模型进行了测试,正常情况下,每两个模型之间的重叠应该为 0,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠高达 87%。识别错误的结果 Llama3-V 和 MiniCPM-Llama3-V 2.5 也有高达 182 个重合。

dbe8b3eb2ba12e7748452f79aeee0f9e.png

删库?也不管用

在重重质疑之后,Llama3-V 的作者行动了。此前宣传 Llama3-V 的推特内容流已不可见。

78a0d5ca899d25bd672a4132d3fda804.png

他还隐藏了 HuggingFace 的仓库。Magic Yang 再次发难,问 Llama3-V 的作者为何在 HuggingFace 上将模型设为私密?

作者称,设为私密是为了修复 Llama3-V 的推理功能,MiniCPM 的配置与 Llama3-V 不兼容,当时 HuggingFace Transformers 无法正确地加载模型,为了避免下载模型的用户运行失败,他将进行一些修复。

ed8941b554a8a5ab84db3e1c6015c8c5.png

同样地,Llama3-V 的 GitHub 项目主页也显示为「404」。

8cab3b9c7b21c532f8b1c9be09b1c3cf.png

GitHub 地址:https://github.com/mustafaaljadery/llama3v

这些举动显然是为了应对社区的强烈反应和对模型来源合法性的质疑。但这样的逃避似乎并不管用。即使 Magic Yang 与对话已经随着项目页面 404 而隐藏。但 Magic Yang 已将对话截图评论在了 MiniCPM-V 的 GitHub 页面。

6124fda8ef05787504b7e0846346d487.png

据网友反馈,当运行 Llama3-V 时,作者提供的代码无法与 HuggingFace 上的 checkpoint 兼容。然而,当把 Llama3-V 模型权重中的变量名更改为 MiniCPM-Llama3-V 2.5 后,就能成功运行。

aa9811bec428da62656c3106406f052d.png

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一个简单的高斯噪声,就会得到一个在各个测试集上的表现都与 Llama3-V 极为相似的模型。

4241ed2e8a66471b8c7fa967851cc722.png

有网友上传了 Llama3-V 删库前的检查点,大家可以自行测试验证。

4c81bb54b0b00d9bdaf67ee4974bddb6.png

检查点链接:https://twitter.com/zhanga6/status/1797293207338041719

有人认为,这是关乎道德、诚信与声誉的问题。如果抄袭得到验证,斯坦福大学应该介入调查。

ce92b4f6dc55c008d5dec67e789b0c1c.png

a0cff726a91d796c6994f9a37cb18d8d.png

图源:X@AvikonHadoop

在国内外舆情发酵了两天后,作者之一站出来道歉,称「抄袭」源于对队友 Mustafa 的盲信。

34cc1748cfb23b7824ad1ddb96a5597e.png

你怎么看呢?

4456f5cf432e574b8b3c99884b057a39.gif

END

184de5e61c4957fd87ae4fdaa4c71da0.gif

19bbd3db66c91f7d9e9a0f958df8bc63.gif

转载请联系本公众号获得授权

458e08a997c51f73814a25b738c18ce5.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

fb56e2bce861319c9883790fdedea6e1.png

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值