阿里通义多模态大模型mPLUG-Owl3是怎么炼成的？

青稞社区.

已于 2024-09-02 13:52:21 修改

阅读量604

点赞数 11

分类专栏：青稞Talk 文章标签：人工智能语言模型

于 2024-09-02 13:16:17 首次发布

本文链接：https://blog.csdn.net/QingKeLab/article/details/141817069

版权

青稞Talk 专栏收录该内容

29 篇文章

订阅专栏

关注公众号：青稞AI，第一时间了解最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

在这里插入图片描述

支持自由格式的图文输入已然成为前沿多模态大模型的关键能力，然而如何高效地处理随之而来的长视觉内容同时准确建模图文交错输入成为了关键挑战。

在这里插入图片描述

mPLUG-Owl3是由阿里通义实验室mPLUG团队推出的一款通用多模态大模型，主要特点是能够处理多图和长视频内容。

在这里插入图片描述

该模型引入了Hyper-Attention机制来替代传统多模态序列拼接的方法，从而提高了处理效率。mPLUG-Owl3在处理单图、多图和视频时表现出较低的计算开销，并在超长视觉内容输入方面也有良好的表现。

在这里插入图片描述

Paper：mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
Abs：https://arxiv.org/abs/2408.04840
Code：https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

9月10日晚7点，青稞 Talk 第22期，阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博，将直播分享《mPLUG-Owl3：探索长序列模型架构的通用多模态大模型》。

Talk信息

主讲嘉宾

叶加博，华东师范大学博士，阿里巴巴通义实验室高级算法工程师，参与通义多模态大模型mPLUG家族的研发，包含多模态底座mPLUG系列，多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题，成为前沿多模态大模型通用组件。