Emu2：37B参数开创多模态生成新篇章

努力犯错

已于 2023-12-29 11:26:54 修改

阅读量648

点赞数 7

文章标签：人工智能 llama chatgpt gpt-3 深度学习

于 2023-12-26 18:10:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nulifancuoAI/article/details/135227957

版权

引言

多模态任务在人工智能领域一直是极具挑战性的「技术高地」。智源研究院最近开源发布的新一代多模态基础模型Emu2，在这一领域取得了突破性进展。Emu2以其庞大的37B

参数规模和强大的多模态生成能力，为AI的多模态理解和生成开启了新的篇章。

模型概述

Emu2是一款大规模自回归生成式多模态预训练模型，训练过程中采用了大量图文、视频序列，以及统一的自回归建模方式。这款模型在少样本多模态理解任务上大幅超越了当下主流的多模态预训练大模型，如Flamingo-80B和IDEFICS-80B，在众多任务中取得了最优性能。

Huggingface模型下载：https://huggingface.co/BAAI/Emu2-Chat
AI快站模型免费加速下载：https://aifasthub.com/models/BAAI/Emu2-Chat

技术创新

Emu2模型的一个显著特点是其简化的建模框架。相比于第一代Emu模型，Emu2在训练中使用了更简单的框架，并扩展了模型规模至37B参数。这不仅提升了模型的能力和通用性，还增强了其在多模态任务中的表现。Emu2利用了统一自回归建模的多模态预训练框架，将图像、视频等模态的token序列与文本token序列交错在一起输入到模型中进行训练。

应用表现

在多项少样本理解、视觉问答、主体驱动图像生成等任务上，Emu2表现卓越。尤其在VQAv2、OKVQA、MSVD等十余个图像和视频问答评测集上，Emu2都取得了最优性能。此外，在DreamBench主体驱动图像生成测试上，Emu2相较于此前的方法取得显著提升。

最低0.47元/天解锁文章

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Emu2：37B参数开创多模态生成新篇章

Emu2是一款大规模自回归生成式多模态预训练模型，训练过程中采用了大量图文、视频序列，以及统一的自回归建模方式。这款模型在少样本多模态理解任务上大幅超越了当下主流的多模态预训练大模型，如Flamingo-80B和IDEFICS-80B，在众多任务中取得了最优性能。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。