多模态大语言模型arxiv论文略读(二十二)

请添加图片描述

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

➡️ 论文标题:MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
➡️ 论文作者:Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory、The Chinese University of Hong Kong, Shenzhen、School of Software, Beihang University、Tsinghua University、The University of Sydney
➡️ 问题背景:当前的具身智能系统在解决长期开放世界任务时,面临过程依赖性和上下文依赖性的挑战。这些任务要求系统不仅能够分解复杂的任务序列,还需要根据环境信息进行灵活的规划和执行。然而,现有的方法在处理这些任务时,往往难以同时满足过程和上下文的依赖性。
➡️ 研究动机:为了克服现有方法在处理长期开放世界任务时的局限性,研究团队开发了MP5,一个基于Minecraft的多模态具身系统。MP5通过集成多模态大语言模型(MLLMs)和主动感知方案,能够分解复杂的任务,设计情境感知的计划,并执行具身动作控制,从而有效解决过程依赖性和上下文依赖性的问题。
➡️ 方法简介:MP5系统由五个相互协作的模块组成:解析器(Parser)、感知器(Percipient)、规划器(Planner)、执行器(Performer)和巡逻器(Patroller)。感知器是一个经过LoRA微调的多模态大语言模型,能够根据任务需求主动感知环境信息。规划器和执行器则根据感知到的信息进行任务规划和动作执行,巡逻器负责监控和反馈,确保任务的正确执行。
➡️ 实验设计:研究团队在Minecraft模拟环境中进行了广泛的实验,评估了MP5在解决上下文依赖任务和过程依赖任务中的表现。实验包括了不同难度级别的任务,从简单的环境感知任务到复杂的长期任务。实验结果表明,MP5在上下文依赖任务中达到了91%的成功率,在过程依赖任务中达到了22%的成功率,特别是在处理从未见过的开放任务时表现出色。

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models

➡️ 论文标题:Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models
➡️ 论文作者:Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao Dong
➡️ 研究机构: The Chinese University of Hong Kong、Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences、Shanghai AI Laboratory、University of Sydney、Shenzhen University of Advanced Technology、University of Macau
➡️ 问题背景:传统的图像质量评估(IQA)方法主要依赖于输出质量或相似性分数,这些分数虽然能提供一定的评估,但无法全面反映图像质量的多方面因素,如噪声、颜色失真和伪影等。此外,这些方法在复杂场景下的评估结果往往与人类判断不一致,尤其是在图像对齐不良或存在多种失真时。
➡️ 研究动机:为了更好地与人类的评估过程对齐,研究团队提出了一种新的IQA范式——DepictQA(Depicted Image Quality Assessment)。该方法通过多模态大语言模型(MLLMs)实现,能够描述图像质量的多个方面,并通过语言解释图像质量的比较结果,从而提供更符合人类判断的评估。
➡️ 方法简介:研究团队设计了一个分层的任务框架,包括质量描述、质量比较和比较推理三个任务,以逐步引导DepictQA获得所需的能力。为了训练DepictQA,团队构建了一个多模态IQA数据集M-BAPPS,该数据集基于现有的BAPPS IQA数据集,包含5,104个详细的高质量文本描述和115,646个简短描述。通过多源训练方法和专门的图像标签,解决了训练数据有限和多图像处理的挑战。
➡️ 实验设计:研究团队在多个现有的IQA基准上进行了广泛的实验,验证了DepictQA的有效性。实验结果表明,DepictQA不仅在多个基准上达到了最先进的性能,而且能够更准确地描述图像失真和纹理损伤,并解释图像质量的比较过程。此外,DepictQA在非参考应用中也展示了其数据集的实用性。

DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

➡️ 论文标题:DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving
➡️ 论文作者:Wenhai Wang, Jiangwei Xie, ChuanYang Hu, Haoming Zou, Jianan Fan, Wenwen Tong, Yang Wen, Silei Wu, Hanming Deng, Zhiqi Li, Hao Tian, Lewei Lu, Xizhou Zhu, Xiaogang Wang, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab, Shanghai AI Laboratory、The Chinese University of Hong Kong、SenseTime Research、Stanford University、Nanjing University、Tsinghua University
➡️ 问题背景:自动驾驶(AD)系统近年来取得了显著进展,从基于规则的系统发展到数据驱动的端到端系统。然而,这些系统在处理边缘情况时仍面临挑战,而大型语言模型(LLMs)因其丰富的世界知识和强大的逻辑推理能力,为解决这些问题提供了新的可能。然而,LLMs的输出主要是语言和概念性的,难以直接用于车辆控制。
➡️ 研究动机:现有的研究尝试将LLMs集成到AD系统中,但这些方法在实际环境或真实模拟器中进行闭环驾驶时存在局限性。本研究旨在通过将LLMs的输出与行为规划模块的决策状态对齐,设计一个基于LLMs的闭环自动驾驶框架,以克服这些局限性。
➡️ 方法简介:研究团队提出了DriveMLM框架,该框架通过以下三个关键设计实现了在真实模拟器中的闭环自动驾驶:1) 行为规划状态对齐,将LLMs的输出与Apollo系统的行为规划模块的决策状态对齐;2) 多模态LLM(MLLM)规划器,接受多模态输入(如多视角图像、LiDAR点云、交通规则、系统消息和用户指令),并预测决策状态;3) 高效的数据收集策略,确保收集到包含决策状态、决策解释和用户命令的全面数据集。
➡️ 实验设计:研究团队在CARLA Town05 Long上进行了广泛的实验,评估了模型在闭环驾驶指标(如驾驶得分DS和每干预里程MPI)以及理解指标(如决策状态的准确率、F1值,决策解释的BLEU-4、CIDEr和METEOR)上的表现。实验结果表明,DriveMLM在CARLA Town05 Long上取得了76.1的驾驶得分,比Apollo基线高出4.7分,展示了其在闭环驾驶中的有效性。此外,模型还能够通过语言指令处理特殊情况,如为救护车让行或遵守交通规则。

Osprey: Pixel Understanding with Visual Instruction Tuning

➡️ 论文标题:Osprey: Pixel Understanding with Visual Instruction Tuning
➡️ 论文作者:Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu
➡️ 研究机构: 浙江大学、蚂蚁集团、微软、香港理工大学
➡️ 问题背景:多模态大语言模型(MLLMs)通过视觉指令调优,已展现出强大的通用视觉-语言能力。然而,当前的MLLMs主要集中在图像级或框级理解,缺乏像素级的细粒度视觉-语言对齐,这限制了它们在细粒度图像理解任务中的表现,如区域分类、描述和推理。此外,缺乏基于掩码的指令数据也限制了这些模型的发展。
➡️ 研究动机:为了克服现有MLLMs在细粒度图像理解上的局限,研究团队提出了Osprey,通过引入细粒度的掩码区域到语言指令中,旨在实现像素级的视觉理解。Osprey不仅扩展了MLLMs的能力,还通过构建大规模的掩码-文本指令数据集,提高了模型的鲁棒性和灵活性。
➡️ 方法简介:Osprey采用了一种卷积CLIP骨干作为视觉编码器,并设计了一个掩码感知的视觉提取器,以从高分辨率输入中提取精确的视觉掩码特征。这些视觉特征与语言指令交织,形成输入序列,送入大语言模型(LLM)中,以实现细粒度的语义理解。Osprey能够与Segment Anything Model (SAM) 无缝集成,以获得多粒度的语义。
➡️ 实验设计:研究团队在多个基于区域的识别、分类和复杂描述与推理任务上进行了实验,验证了Osprey在细粒度区域理解任务上的优越性。实验数据集包括COCO、RefCOCO、RefCOCO+和RefCOCOg等,通过不同的指令模板生成了高质量的掩码-文本对,以增强模型的鲁棒性和灵活性。

GSVA: Generalized Segmentation via Multimodal Large Language Models

➡️ 论文标题:GSVA: Generalized Segmentation via Multimodal Large Language Models
➡️ 论文作者:Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang
➡️ 研究机构: Tsinghua University
➡️ 问题背景:经典的Referring Expression Segmentation (RES)任务假设每个表达式对应一个目标,这在实际应用中存在局限性,尤其是在多目标和空目标的情况下。Generalized Referring Expression Segmentation (GRES)任务旨在解决这一问题,支持多个目标和空目标的识别。然而,现有的多模态大语言模型(MLLMs)在处理GRES任务时表现不佳,尤其是在处理多目标和空目标时。
➡️ 研究动机:现有的MLLMs在处理GRES任务时存在局限性,主要原因是它们依赖于单一的[SEG] token,这限制了模型的灵活性。为了克服这一问题,研究团队提出了Generalized Segmentation Vision Assistant (GSVA),通过引入多个[SEG] token和[REJ] token来处理多目标和空目标,从而提高模型在GRES任务中的表现。
➡️ 方法简介:GSVA通过两个关键设计来解决GRES任务中的挑战:1) 学习预测多个[SEG] token以分割多个目标;2) 通过预测[REJ] token来拒绝空目标。具体来说,当用户请求多个目标时,GSVA会在每个目标的描述前添加一个[SEG] token,引导模型生成多个分割掩码。如果目标不存在于图像中,GSVA会预测[REJ] token,直接生成空掩码,从而避免模型尝试分割不存在的目标。
➡️ 实验设计:研究团队在gRefCOCO数据集上进行了实验,该数据集包含278,232个表达式,其中80,022个是多目标表达式,32,202个是空目标表达式,涉及19,994张图像。实验评估了GSVA在GRES任务中的表现,包括分割掩码的质量(使用gIoU和cIoU指标)和空目标的识别准确率(N-acc.)。实验结果表明,GSVA在处理多目标和空目标方面显著优于现有的MLLMs,如LISA。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖头鱼爱算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值