Llama 3.2 90B刚开源就被Molmo-72B全面击败！

程序员笑武

于 2024-09-27 20:00:23 发布

阅读量404

点赞数 10

文章标签： llama 人工智能大数据机器学习深度学习

本文链接：https://blog.csdn.net/m0_59164304/article/details/142601292

版权

Meta此次发布的Llama 3.2一个新特性是视觉模型，包括11B和90B，作为首批支持视觉任务的Llama模型，但是allenai开源的多模态Molmo-72B，在视觉评测上全面击败Llama 3.2 90B。

两个新发布的开源LLM之间的基准测试比较：Molmo与Llama 3.2可以看出，Molmo在各个方面都相当出色！

allenai的Molmo发布详情：

Molmo，采用 Apache 2.0 许可，并将发布他们的数据，创建了自定义的 ELO 评估，并且其架构比 Llama 3.2 更简单，可能与 Flash Attention 兼容。

有 4 个变体

Molmo 72B 基于 Qwen2-72B，并使用 OpenAI CLIP 作为视觉骨干
Molmo 7B 使用 Qwen2 7B 和 Olmo 7B 作为 LLM 骨干
Molmo 72B 模型在基准测试中胜过 Llama 3.2 90B、Pixtral 12B 和 Qwen 2 72B VL
Molmo 72B 与 OpenAI 的 GPT-4o、GoogleDeepMind 的 Gemini 1.5 Pro 和 Anthropic的 Claude Sonnet 3.5 相匹配
Molmo 理解用户界面并且能够指向它所看到的内容
使用基于语音的图像描述生成高质量的训练数据
在 11 个学术基准和 325,231 个人类成对比较上进行了评估
在比竞争对手小三数量级的高质量数据集PixMo上训练
广泛的人类评估验证了 Molmo 的性能和用户偏好。

Blog：https://molmo.allenai.org/blog``Paper：https://molmo.allenai.org/paper.pdf``Demo：https://molmo.allenai.org``HF：https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Meta Llama3.2发布详情：

📣Llama 3.2：为边缘设备设计的轻量级模型，视觉模型等等！新特性有哪些？

Llama 3.2 的 1B 和 3B 模型为多种设备上的用例提供了同类领先的能力
Llama 3.2 的 11B 和 90B 视觉模型的性能与领先的封闭模型相媲美 —— 并且可以作为 Llama 3.1 的 8B 和 70B 的直接替代品。
新的 Llama Guard 模型支持多模态用例和边缘部署。
Llama Stack 的首次官方发行版简化并加速了开发者和企业围绕 Llama 构建支持代理应用等的方式。

视觉模型

作为首批支持视觉任务的Llama模型，11B和90B模型需要支持图像推理的全新模型架构。

训练流程由多个阶段组成：

从预训练的Llama 3.1文本模型开始。首先，添加图像适配器和编码器，然后在大规模噪声（图像、文本）对数据上进行预训练。
接下来，在中等规模的高质量领域内和知识增强的（图像、文本）对数据上进行训练。

在后期训练中：

使用与文本模型类似的方法，在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。
利用 Llama 3.1 模型生成合成数据，在域内图像的基础上过滤和扩充问题和答案，并使用奖励模型对所有候选答案进行排名，以提供高质量的微调数据。
还添加了安全缓解数据，以生成具有高安全水平的模型，同时保留模型的有用性

最终结果是一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。

轻量级模型

在 1B 和 3B 模型上使用了两种方法（修剪和提炼），使其成为首批能够高效适应设备的高性能轻量级 Llama 模型。

修剪能够缩小 Llama 群中现有模型的大小，同时尽可能多地恢复知识和性能。对于 1B 和 3B 模型，采用了从 Llama 3.1 8B 中一次性使用结构化修剪的方法。这涉及系统地移除网络的某些部分并调整权重和梯度的大小，以创建一个更小、更高效的模型，同时保留原始网络的性能。
知识蒸馏使用较大的网络将知识传授给较小的网络，其理念是较小的模型使用教师可以获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B，将 Llama 3.1 8B 和 70B 模型的对数合并到模型开发的预训练阶段，其中这些较大模型的输出（对数）被用作 token 级目标。修剪后使用知识蒸馏来恢复性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述