关注公众号:青稞AI,第一时间了解最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks
支持自由格式的图文输入已然成为前沿多模态大模型的关键能力,然而如何高效地处理随之而来的长视觉内容同时准确建模图文交错输入成为了关键挑战。
mPLUG-Owl3是由阿里通义实验室mPLUG团队推出的一款通用多模态大模型,主要特点是能够处理多图和长视频内容。
该模型引入了Hyper-Attention机制来替代传统多模态序列拼接的方法,从而提高了处理效率。mPLUG-Owl3在处理单图、多图和视频时表现出较低的计算开销,并在超长视觉内容输入方面也有良好的表现。
Paper:mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
Abs:https://arxiv.org/abs/2408.04840
Code:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
9月10日晚7点,青稞 Talk 第22期,阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博,将直播分享《mPLUG-Owl3:探索长序列模型架构的通用多模态大模型》。
Talk信息
主讲嘉宾
叶加博,华东师范大学博士,阿里巴巴通义实验室高级算法工程师,参与通义多模态大模型mPLUG家族的研发,包含多模态底座mPLUG系列,多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题,成为前沿多模态大模型通用组件。
主题提纲
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
1、长视觉内容理解对多模态大模型的挑战
2、mPLUG-Owl3 模型架构及训练解析
- Hyper-Attention
- 三阶段训练范式
3、mPLUG-Owl3 评估测试及应用实践
直播时间
9月10日(周二)19:00-20:00
参与方式
Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0910 ",报名进群!