斯坦福爆火Llama3-V竟抄袭中国开源项目

近期在Huggingface上,一个来自斯坦福的研究团队发布了一个能够“改变现状”的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练出一个超强的多模态模型,效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当,但模型小 100 倍。

在这里插入图片描述
Github 项目链接:https://github.com/mustafaaljadery/llama3v(已删库)

HuggingFace 项目链接:https://huggingface.co/mustafaaljadery/llama3v(已删库)

用这么少的成本,创造出了如此惊艳的成果,Llama3-V 在Twitter上迅速爆火,浏览量突破 30 万,转发超过 300 次,还冲上了“ HuggingFace Trending ”Top 5。

但是随着越来越多的学者争相下载研究后,发现Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

而此前 MiniCPM-Llama3-V 2.5 就已经成功超越了同系列的Llava-next,并且其多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型。OCR 能力及指令跟随能力进一步提升,并支持超过 30 种语言的多模态交互。这样的优秀性能,不仅让 MiniCPM-Llama3-V 2.5 成为受大家推崇的模型,或许也成为了 Llama3-V 的“模仿”对象。

项目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

在这里插入图片描述

在这个 Issue 中,他首先提出,Llama3-V 与 MiniCPM- Llama3-V 2.5 具有相同的模型结构和配置文件,只是变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5,只是进行了一些格式上的修改,包括但不限于分割图像、tokenizer、重采样器和数据加载部分。

在这里插入图片描述

在这里插入图片描述
细心的网友在这一线索下细扒,甚至发现连清华 NLP 实验室和面壁智能团队特别采集和标注而独有的战国竹简的ocr识别都有。
在这里插入图片描述

有网友用 1000 张竹简图像对同类模型进行了测试,正常情况下,每两个模型之间的重叠应该为 0,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠高达 87%。识别错误的结果 Llama3-V 和 MiniCPM-Llama3-V 2.5 也有高达 182 个重合。

在这里插入图片描述
在国内外舆情发酵了两天后,作者之一站出来道歉,称“抄袭”源于对队友 Mustafa 的盲信。

这不禁让人想起去年的某些事

在这里插入图片描述

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值