Meta刚开源llama 3.2多模态，就被打败了~

程序员笑武

于 2024-09-26 19:45:05 发布

阅读量431

点赞数 10

文章标签： llama 人工智能大数据机器学习深度学习知识图谱

本文链接：https://blog.csdn.net/m0_59164304/article/details/142573889

版权

2个系列：

多模态：Llama 3.2 11B 和 90B，支持视觉多模态，LLama终于有了眼睛！
端侧小模型：LLama 3.2 1B 和 3B

对于新增的多模态模型，只新增了图像编码器，将其集成到预训练模型中，没有更新语言模型参数，即插即用！

对于 Llama 3.2 中的 1B 和 3B 模型，直接使用8B、70B的logits蒸馏，比较常见的蒸馏方式，就是废卡。

虽然 LLama 系列终于有了视觉。但是，今天 allenai 开源了多模态 Molmo 72B 和 7B 模型。并且在视觉方面的表现全面超过了 3.2，太卷了~

下表是目前知名多模态模型的横向对比，可能存在错误（claude生成的~）

Benchmark	Molmo-72B	Molmo-7B-D	Molmo-7B-O	MolmoE-1B	Llama 3.2 11B	Llama 3.2 90B	Qwen-VL-72B	GPT-4o	Claude-3.5 Sonnet	Qwen2-VL-7B	GPT-4o-mini	InternVL2-8B	MiniCPM-V 2.6















AI2D	96.3	93.2	90.7	86.4	62.4	75.3	-	-	-	-	-	-	-
ChartQA	87.3	84.1	80.4	78.0	83.4	85.5	88.3	85.7	90.8	83.0	-	83.3	-
VQAv2	86.5	85.6	85.3	83.9	75.2	78.1	-	-	-	-	-	-	-
DocVQA	93.5	92.2	90.8	77.7	88.4	90.1	96.5	92.8	95.2	94.5	-	91.6	90.8
InfoVQA	81.9	72.6	70.0	53.9	43.2	56.8	84.5	-	-	76.5	-	74.8	-
TextVQA	83.1	81.7	80.4	78.8	73.1	73.5	85.5	-	-	84.3	-	77.4	80.1
RealWorldQA	75.2	70.7	67.5	60.4	N/A	N/A	77.8	75.4	60.1	70.1	-	64.4	-
MMMU	54.1	45.3	39.3	34.9	41.7	49.3	64.5	69.1	68.3	54.1	60.0	51.8	49.8
MathVista	58.6	51.6	44.5	34.0	51.5	57.3	70.5	63.8	67.7	58.2	52.4	58.3	60.6
OCRBench	-	-	-	-	-	-	877	736	788	845	785	794	852
MTVQA	-	-	-	-	-	-	30.9	27.8	25.7	26.3	-	-	-
VCR_un easy	-	-	-	-	-	-	91.93	91.55	63.85	89.70	83.60	-	73.88
MMBench-EN	-	-	-	-	-	-	86.5	83.4	79.7	83.0	-	81.7	-
MMStar	-	-	-	-	-	-	68.3	63.9	62.2	60.7	54.8	61.5	57.5
HallBench	-	-	-	-	-	-	58.1	55.0	49.9	50.6	46.1	45.2	48.1
Video-MME	-	-	-	-	-	-	71.2/77.8	71.9/71.2	75.0/81.3	63.3/69.0	-	54.0/56.9	60.9/63.6

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述