阿里通义多模态大模型mPLUG-Owl3是怎么炼成的?

关注公众号:青稞AI,第一时间了解最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

在这里插入图片描述

支持自由格式的图文输入已然成为前沿多模态大模型的关键能力,然而如何高效地处理随之而来的长视觉内容同时准确建模图文交错输入成为了关键挑战。

在这里插入图片描述

mPLUG-Owl3是由阿里通义实验室mPLUG团队推出的一款通用多模态大模型,主要特点是能够处理多图和长视频内容。

在这里插入图片描述

该模型引入了Hyper-Attention机制来替代传统多模态序列拼接的方法,从而提高了处理效率。mPLUG-Owl3在处理单图、多图和视频时表现出较低的计算开销,并在超长视觉内容输入方面也有良好的表现。

在这里插入图片描述

Paper:mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
Abs:https://arxiv.org/abs/2408.04840
Code:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

9月10日晚7点,青稞 Talk 第22期,阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博,将直播分享《mPLUG-Owl3:探索长序列模型架构的通用多模态大模型》。

Talk信息

主讲嘉宾

叶加博,华东师范大学博士,阿里巴巴通义实验室高级算法工程师,参与通义多模态大模型mPLUG家族的研发,包含多模态底座mPLUG系列,多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题,成为前沿多模态大模型通用组件。

主题提纲

mPLUG-Owl3:探索长序列模型架构的通用多模态大模型

1、长视觉内容理解对多模态大模型的挑战
2、mPLUG-Owl3 模型架构及训练解析

  • Hyper-Attention
  • 三阶段训练范式

3、mPLUG-Owl3 评估测试及应用实践

直播时间

9月10日(周二)19:00-20:00

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0910 ",报名进群!

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值