FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs
➡️ 论文标题:FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs
➡️ 论文作者:Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao
➡️ 研究机构: 西北工业大学、香港大学、南洋理工大学
➡️ 问题背景:动态面部表情识别(DFER)对于理解人类行为至关重要。然而,当前的方法在性能上存在局限,主要原因是面部动态信息的利用不足和表情语义的模糊性。为了克服这些挑战,研究团队提出了一种新的框架——FineCLIPER,旨在通过多模态细粒度学习来提高DFER的性能。
➡️ 研究动机:现有的DFER方法在处理动态面部表情时存在类别标签的语义模糊性和面部局部细微动作的捕捉不足等问题。为了提高DFER的性能,研究团队提出了一种新的框架FineCLIPER,通过多模态细粒度学习和参数高效的微调策略,全面挖掘视频数据中的有用信息。
➡️ 方法简介:FineCLIPER框架包括以下几个关键部分:1) 通过扩展类别标签为正负文本描述,利用CLIP模型的跨模态相似性计算进行监督;2) 采用层次化信息挖掘策略,从视频帧、面部分割和地标以及多模态大语言模型生成的细粒度描述中提取特征;3) 通过参数高效的微调(PEFT)策略,对预训练模型进行微调,以适应DFER任务。
➡️ 实验设计:研究团队在DFEW、FERV39k和MAFW三个公开数据集上进行了实验。实验设计了不同层次的特征提取(如视频帧、面部分割和地标、细粒度描述),以及不同类型的标签增强(如正负描述),以全面评估FineCLIPER在不同条件下的性能。实验结果表明,FineCLIPER在监督和零样本设置下均取得了新的最先进性能。
Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation
➡️ 论文标题:Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation
➡️ 论文作者:Cheng-Yi Li, Kao-Jung Chang, Cheng-Fu Yang, Hsin-Yu Wu, Wenting Chen, Hritik Bansal, Ling Chen, Yi-Ping Yang, Yu-Chun Chen, Shih-Pin Chen, Jiing-Feng Lirng, Kai-Wei Chang, Shih-Hwa Chiou
➡️ 研究机构: UCLA、台北荣民总医院、阳明交通大学、香港城市大学、台北荣民总医院大数据中心、台北荣民总医院眼科、阳明交通大学医院与健康照护管理研究所、台北荣民总医院家庭医学科、台北荣民总医院神经内科、阳明交通大学放射科、阳明交通大学医学院
➡️ 问题背景:多模态大语言模型(MLLMs)在医学应用中展现了巨大的潜力,尤其是在放射学报告生成方面。然而,现有的2D医学图像-文本对生成模型在处理3D解剖结构时存在局限性,无法准确反映现实世界的诊断挑战。具体来说,3D图像数据集的稀缺、基础MLLMs的直接使用以及缺乏相关的评估指标,这些因素共同限制了下一代医学MLLMs的发展。
➡️ 研究动机:为了克服上述限制,研究团队构建了一个大规模的3D脑CT数据集(18,885个文本-扫描对),并应用临床视觉指令调优(CVIT)训练了能够生成放射学附合3D脑CT报告的BrainGPT模型。此外,研究团队还提出了一种新的评估指标——面向特征的放射学任务评估(FORTE),以更准确地衡量生成报告的临床相关性。
➡️ 方法简介:研究团队通过收集3D脑CT数据集并应用CVIT训练BrainGPT模型,探索了不同调优条件(如普通视觉指令调优RVIT和临床视觉指令调优CVIT)对模型性能的影响。此外,研究还引入了FORTE评估方法,将放射学关键词分为度、地标、特征和印象四个类别,以多维度评估模型的性能。
➡️ 实验设计:实验在内部测试集和外部验证集CQ500上进行,评估了BrainGPT模型在不同调优条件下的表现。实验设计了多种预处理方法,如句子配对和否定词移除,以提高传统评估指标的敏感性和FORTE评估的准确性。实验结果表明,经过CVIT调优的BrainGPT模型在传统评估指标和FORTE评估中均表现出色,特别是在生成包含临床相关关键词的报告方面。此外,通过图灵测试,研究发现约74%的BrainGPT生成的报告无法与人类书写的报告区分开来,证明了模型在生成人类样放射学报告方面的客观准备度。
TokenPacker: Efficient Visual Projector for Multimodal LLM
➡️ 论文标题:TokenPacker: Efficient Visual Projector for Multimodal LLM
➡️ 论文作者:Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jie Qin, Jianke Zhu, Lei Zhang
➡️ 研究机构: 浙江大学、蚂蚁集团、南京航空航天大学、香港理工大学
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言理解和交互能力方面取得了显著进展。然而,视觉投影器(Visual Projector)在处理高分辨率图像时,视觉令牌(Visual Tokens)的数量显著增加,导致模型效率低下。现有的解决方案要么保留所有视觉上下文但产生冗余令牌,要么减少令牌数量但牺牲了视觉推理能力。
➡️ 研究动机:为了提高多模态大语言模型的效率,同时保持高质量的视觉表示,研究团队提出了一种新的视觉投影器——TokenPacker。该方法旨在通过减少视觉令牌的数量,同时保留丰富的视觉细节,来提高模型的效率和性能。
➡️ 方法简介:TokenPacker采用了一种从粗到细的策略,首先将视觉特征插值为低分辨率的点查询,然后通过区域到点的注入模块,利用高分辨率的多层级区域特征作为细粒度的参考键和值,更新低分辨率的点查询,生成紧凑且丰富的视觉令牌。此外,研究团队还提出了一种动态图像切片方案,支持任意宽高比的高效高分辨率图像理解。
➡️ 实验设计:研究团队在多个多模态基准数据集上进行了实验,包括通用视觉问答(VQAv2、GQA、VizWiz)、OCR相关任务(VQAT、OCRBench、DocVQA)、幻觉基准(POPE)以及综合基准(MMBench、MM-Vet、MMMU)。实验设计了不同的下采样比例(如2、3、4)和动态切片方案,以评估模型在不同条件下的性能和效率。实验结果表明,TokenPacker在减少视觉令牌数量的同时,能够保持甚至提高模型的性能。
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
➡️ 论文标题:Understanding Alignment in Multimodal LLMs: A Comprehensive Study
➡️ 论文作者:Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
➡️ 研究机构: Apple Inc.
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言任务中取得了显著进展,但仍然存在生成与视觉输入不一致的响应(即幻觉)的问题。偏好对齐方法被证明可以减少幻觉,使模型的响应更符合人类偏好。然而,与单模态大语言模型(LLMs)相比,MLLMs的对齐研究相对较少。
➡️ 研究动机:尽管已有研究探索了MLLMs的对齐方法,但由于数据集、基础模型类型和对齐方法的差异,很难明确哪些因素对性能提升贡献最大。本研究旨在独立分析MLLMs对齐的每个方面,以提供更清晰的理解和指导。
➡️ 方法简介:研究团队将对齐方法分为离线(如DPO)和在线(如在线DPO)两类,并通过一系列实验评估了这些方法在MLLMs中的表现。此外,研究团队提出了一种新的偏好数据生成方法——Bias-Driven Hallucination Sampling (BDHS),该方法无需额外注释或外部模型,即可生成有效的偏好数据。
➡️ 实验设计:研究在多个公开数据集上进行了实验,包括LLaVA-RLHF、RLHF-V、VLFeedback等。实验设计了不同的对齐方法(如RLHF、DPO、在线DPO)和不同的数据集大小,以全面评估模型的对齐效果。研究还探讨了离线和在线方法的结合使用,发现这种混合方法在某些情况下可以显著提高模型性能。
MMedAgent: Learning to Use Medical Tools with Multi-modal Agent
➡️ 论文标题:MMedAgent: Learning to Use Medical Tools with Multi-modal Agent
➡️ 论文作者:Binxu Li, Tiankai Yan, Yuanting Pan, Jie Luo, Ruiyang Ji, Jiayuan Ding, Zhe Xu, Shilong Liu, Haoyu Dong, Zihao Lin, Yixin Wang
➡️ 研究机构: Stanford University、Harvard Medical School、Virginia Tech、MSU、CUHK、Tsinghua University、Duke University
➡️ 问题背景:尽管多模态大型语言模型(MLLMs)在医疗领域取得了显著进展,但它们在处理多种任务和不同模态的医疗影像时仍存在局限性。现有的大型医疗模型通常只能处理有限的任务和特定的影像模态,且难以高效扩展到新任务或更多模态。此外,这些通用模型通常无法提供与特定任务定制的MLLMs相媲美的专家级响应。
➡️ 研究动机:为了解决上述问题,研究团队开发了首个专门针对医疗领域的多模态AI代理——多模态医疗代理(MMedAgent)。该代理通过集成多种医疗工具,能够根据用户输入选择最合适的工具来执行特定任务,从而生成专家级响应。研究旨在通过MMedAgent提高医疗任务的处理效率和质量,同时增强其对新医疗工具的学习能力。
➡️ 方法简介:研究团队构建了一个指令调优数据集,用于训练MMedAgent选择合适的工具并整合工具输出。该数据集涵盖了六个医疗工具,这些工具可以解决七个任务,涉及五种模态。MMedAgent的核心是一个经过指令调优的多模态大型语言模型,能够理解用户指令、选择工具并整合输出。
➡️ 实验设计:实验在多个医疗任务上进行了评估,包括视觉问答(VQA)、图像分割、医疗报告生成(MRG)等。实验设计了不同的任务和模态,以全面评估MMedAgent的性能。实验结果表明,MMedAgent在各种医疗任务上的表现显著优于现有的开源和闭源模型,包括GPT-4o。此外,MMedAgent还展示了高效的学习和集成新医疗工具的能力。