本周六！多模态论文分享@ICLR2025

最新推荐文章于 2025-06-05 16:53:26 发布

zenRRan

最新推荐文章于 2025-06-05 16:53:26 发布

阅读量369

点赞数

文章标签：人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247536507&idx=1&sn=9d3e64676333b065a3789f7cb79e75c7&chksm=ea9267c93c585dcaa3a20fcc1a9b2c902e81acc62a6d400fb1a04aca1dacec78115380a5708a&scene=126&sessionid=0

版权

主题

多模态论文专题分享@ICLR2025

时间

北京时间 2025.3.15 19:00

论文列表

Zigzag Diffusion Sampling: Diffusion Models Can Self-lmprove via Self-Reflection - 邵世通港科大
MLLM can see? Dynamic Correction Decoding for Hallycination Mitigatior - 王晨曦浙大
F3Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos - 刘照宇新国立
Temporal Reasoning Transfer from Text to Video - 刘源鑫北大
reconstructive visual instruction tuning - 王淏辰中科院自动化所
Towards Semantic Equivalence of Tokenization in Multimodal LLM - 吴胜琼新国立

嘉宾与内容介绍

邵世通

香港科技大学（广州）博士一年级，预计2025秋入学攻读PHD学位。研究方向：扩散模型，多模态语言模型，于ICLR、AAAI等会议发表相关论文。

论文：Zigzag Diffusion Sampling: Diffusion Models Can Self-lmprove via Self-Reflection

Zigzag Diffusion Sampling（Z-Sampling）提出了一种新的扩散模型采样方法，通过在去噪和反转过程中交替进行自我反射，利用去噪和反转之间的指导间隙逐步累积语义信息，从而可以提高图像生成质量和文本-图像对齐度。

王晨曦

浙江大学软件学院研究生一年级，师从张宁豫老师，研究方向为多模态大模型，幻觉。

论文：MLLM can see? Dynamic Correction Decoding for Hallycination Mitigatior

多模态大语言模型（MLLMs）常出现幻觉现象，原因尚不明确。本文通过实证分析发现，MLLMs在最终输出中可能错误生成物体，但在前置层中能正确识别图像内容。推测语言模型的强知识先验可能压制了视觉信息，导致幻觉。为此，我们提出动态修正解码方法——DeCo，自适应选择前置层并按比例整合知识到最终层，调整输出logits。DeCo与模型无关，可结合多种经典解码策略，适用于不同MLLMs。实验表明，DeCo在基准测试中显著减少幻觉频率，展现了其在缓解幻觉问题上的潜力。

刘照宇

新加坡国立大学计算机系博士生，师从董劲松教授。研究方向涵盖视频理解、概率推理和体育分析，致力于通过计算机视觉与机器学习技术提升体育策略分析的智能化水平。以第一作者身份在ICLR、ICDM等国际顶级会议发表论文。
个人主页：https://lzyandy.github.io/

论文：F3Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos

主要研究视频分析中的快速、高频、细粒度 (F3) 事件检测问题。现有方法难以同时满足这三个标准，主要受运动模糊和微小视觉差异的影响。为此，本文提出 F3Set，一个新的基准数据集，包含超过 1000 种事件类型，并提供精确的时间戳和多层次粒度。基于 F3Set，我们评估了现有的时间动作理解方法，并提出 F3ED，一种新模型，能够在单张 GPU 上高效训练并实现领先性能。该数据集和模型可用于体育分析等多个领域，并可能扩展至其他应用场景。

刘源鑫

北京大学计算语言所三年级博士生。他的研究方向是多模态大模型，特别关注视频理解和视频生成自动评测。
个人主页：https://llyx97.github.io

论文：Temporal Reasoning Transfer from Text to Video

时序信息的理解是视频理解任务中的关键能力。我们发现，当前视频大语言模型（Video LLMs）在时序理解上的瓶颈主要在于其LLM部分，而非视觉编码模块。基于这一洞见，我们提出了一种全新的方法——Textual Temporal Transfer（T3），通过引入纯文本的时序理解数据来提升Video LLMs的视频时序理解能力。实验结果表明，在完全未使用任何视频训练数据的情况下，T3显著提升了LongVA-7B在多个视频理解基准中的表现，其效果甚至超过了采用大量视频训练数据的模型以及拥有20-40B参数规模的模型。

王淏辰

中国科学院自动化研究所直博三年级，导师为张兆翔研究员，本科毕业于上海交通大学。研究兴趣包括多模态大模型和自监督表征学习。
个人主页: https://haochen-wang409.github.io/
google scholar: https://scholar.google.com/citations?user=oNlpTdcAAAAJ

论文：reconstructive visual instruction tuning

我们提出了重建引导的多模态大模型（ROSS），利用以视觉为中心的监督信号，实现细粒度理解能力的显著提升。与传统的仅对文本输出进行监督的方法不同，ROSS引导模型重建输入图像来实现对视觉输出的监督。这种方法充分利用了那些在纯文本监督中容易丢失的，输入图像中本身固有的丰富细节。由于视觉信号的空间冗余较大，ROSS采用了一种去噪目标来重构输入图像的潜在表示。实验表明，ROSS在不同的视觉编码器和语言模型上均能持续带来显著改进。相较于集成多个视觉专家的最先进的方案，ROSS仅使用单一的SigLIP视觉编码器就能提供具有竞争力的表现。

吴胜琼

新加坡国立大学博士三年级，指导老师为Prof. Chua Tat-seng. 主要研究兴趣为多模态学习，通用视觉语言大模型。
个人主页：https://sqwu.top/

论文：Towards Semantic Equivalence of Tokenization in Multimodal LLM

多模态大语言模型（MLLMs）在视觉-语言任务中表现卓越，其核心组件vision tokenization旨在将视觉信号高效转换为对大语言模型（LLM）有利的特征表示。然而，现有vision tokenizers在实现视觉与语言语义对齐方面存在挑战，固定分块方法破坏了视觉语义完整性，影响LLM理解。为此，本文提出动态语义等效视觉分词器（SeTok），采用动态聚类算法将视觉特征划分为语义单元，并根据图像复杂度自适应调整token数量，保持语义完整性的同时更合理表达视觉信息。基于SeTok的增强型MLLM Setokim在多项任务中表现显著提升，实验验证了其在视觉语义建模和跨模态理解方面的优越性。

主持人

饶珈源，上海交通大学二年级博士生，研究方向为计算机视觉、体育分析，个人主页 https://jyrao.github.io。

入群

欢迎加入NICE每周分享交流群，可与NICEer唠嗑，以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26，由国内外高校一线青年教师和学生共同组织。每周进行学术分享，形式包括圆桌会议、主题分享、单篇论文深度分享等，内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近70场分享、嘉宾100+人、全网拥有粉丝量10+万，b站和视频号一共大约20万播放量。详情见：
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288