NeurIPS 2024 | OMG-LLaVA:全新多模态大模型统一分割框架

当前普遍的分割方法擅长像素级的图像和视频理解,但缺乏推理能力,且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大,却缺失像素级理解,且难以接受视觉提示。昆仑天工首发提出OMG-LLaVA框架,将强大的像素级视觉理解与推理能力相结合,可以接受各种视觉和文本提示以实现灵活的用户交互。它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。

db3d95509f69bfebe4d6a0d3c3c58d18.png

为了让大家更好的掌握OMG-LLaVA,研梦非凡于11月8日晚(周五),邀请了多模态专家王导师,为大家独家详解《OMG-LLaVA:像素级理解和智能分割图像全新突破》,从OMG-Llava框架OMG-Seg编码器重点讲解OMG-Llava的模型架构以及实验,包括两篇顶会论文的分析解读,最后代码演示,一节课速通分割大模型,领会顶会idea!

👇🏻扫描二维码找助教0元预约直播课!

5dcddf7a4b31dc299ffe86e1f1a8d3e7.png
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)

fb844c85200ff73b519c83d5debe09ec.png

4665fb52ef07e3f9b2bca4e95bcd00af.gif

直播课内容预览

NeurIPS‘24《OMG-LLaVA : Bridging Image-level,Object-level,Pixel-level Reasoning and Understanding》

一、研究背景

  1. 关注问题

  • 普遍的分割方法

  • 大型视觉-语言多模态模型

  1. 主要贡献

  • 提出OMG-LLaVA

  • 使用通用分割方法作为视觉编码器

  • 感知先验嵌入

二、相关工作

CVPR'24《OMG-Seg : Is One Model Good Enough For All Segmentation?》

9fdb9a6336f3d8a5c906c3896ccc51ec.png
  1. 多模态大语言模型MLLMs

  • 仅具有图像级能力的MLLMs

  • 具有目标级能力的MLLMs

  • 具有像素级能力的MLLMs

  • 具有目标级和像素级能力但系统非常复杂的MLLMs

  • OMG-LLaVA的架构

  1. 视觉分割任务

  • 语义分割

  • 实例分割

  • 全景分割

  1. OMG-Seg:统一的框架来解决多种不同的图像和视频分割任务

👇🏻扫描二维码找助教0元预约直播课!

e0becd8f3f18fdd7f540f89cd3865ffd.png
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)

三、方法:OMG-Llava

  1. Framework

  2. OMG Decoder

  3. 感知先验嵌入

  4. Training

四、实验

  1. 训练与测试

  2. 数据集设置

  3. 实现细节

  4. 实验结果

五、总结和未来研究方向

👇🏻扫描二维码找助教0元预约直播课!

0012ec2561a98d1ac162a653a6f80503.png
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)

890f6e84842ebe21ab2606b1f766ecc9.png

07ed63d09660575e2558662f3a03f93b.gif

直播导师介绍

王导师

【学术背景】拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)

【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等

👇🏻扫描二维码找助教0元预约直播课!约导师meeting~

23ee99ab1854261344c10d3e9b9f79ae.png
ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松产出科研论文成果。

研梦非凡科研论文指导

科研论文idea,并非拍脑门就能产生,需要经过一遍遍做实验、跑代码、改模型、思路修正。研梦非凡专业论文指导,和研梦导师一起找idea,共同解决科研问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!

bb34f939395ddbb1644fba3217673042.jpeg689f3f87e9ff7709e9e15aebecd2cc97.jpeg

<<< 左右滑动见更多 >>>

可辅导的自动驾驶方向

34af0738c4d46f6e17759612feb33576.jpeg6048cc7a7ba1617bb3e437c370066e7c.jpeg7de7d5dcbebcea10c950f3e6d3ba64dd.jpeg

<<< 左右滑动见更多 >>>

研梦非凡部分导师介绍

研梦非凡导师团队,来自海外QStop200、国内华五、C9、985高校的教授/博士导师/博士后,以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~

4917850d20e03a424e83fd0066510e45.jpeg1302c40892cb79c17acd0cd63e66c27a.jpeg34250ad060b6e3069c18e529844b38ee.jpegb46b6336c91ad5604fd29571ae329fe6.jpeg50471283c61a483320049c96e1913ebb.jpeg9051d032b87725564bbb749b9a63bb8e.jpeg54bd97aaab6d2a6e9624f8c0cb3262dd.jpeg44ceed78acc13321d22e3ae48fc33961.jpeg

<<< 左右滑动见更多 >>>

42f4aff5bff54ccd489f05ba69c6eb19.png
扫码预约研梦非凡1v1导师meeting

我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!

955538e8816e262692ee11ff6a976a87.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值