ACM MM2025 最佳论文 & 最佳学生论文出炉,4711 篇投稿中脱颖而出,3D 理解与具身智能天花板!

部署运行你感兴趣的模型镜像

ACM国际多媒体会议(ACM International Conference on Multimedia,简称ACM MM)是由美国计算机协会(ACM)主办的国际多媒体领域顶级盛会,也是中国计算机学会(CCF)推荐的A类会议。该会议始于1993年,每年举办一次。会议专注于多媒体技术领域的最新研究成果、技术创新和行业趋势,涵盖多媒体内容的创建、处理、传输和交互等多个方面,旨在促进学术界和工业界在多媒体技术应用和产品开发方面的交流与合作。

ACMMM2025
2025年的第33届会议于10月27日至31日在爱尔兰都柏林举行,总计收到有效投稿4711篇,最终成功录用1251篇,录用率达26.6%。与前一年相比,录用率有所上升,但总体而言仍维持在较为稳定的水平,对于广大作者来说,该会议依旧值得投稿。

年份投稿量录取量录取率
202547111251篇26.6%
202443851149篇26.20%
20233072902篇29.40%
20222473690篇27.90%
20211942542篇27.90%

会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像方向。小编今天给大家介绍一下本次大会的两篇Best Papers 工作

点击阅读原文,获取更多论文

最佳论文:Open-Vocabulary 3D Affordance Understanding via Functional Text Enhancement and Multilevel Representation Alignment

Best Paper Award

机构:英国格拉斯哥大学

作者:Lin Wu,Wei Wei,Peizhuo Yu,Jianglin Lan∗

研究方法:提出Aff3DFunc框架,基于信息瓶颈原理设计功能文本增强模块,通过双编码器架构提取点云几何特征与文本语义特征,结合多级表示对齐策略和监督对比学习,实现3D开放词汇可用性理解,支持零样本场景泛化并通过真实机器人验证。

The proposed framework Aff3DFunc

创新点

  1. 提出轻量级开放词汇框架Aff3DFunc,联合建模可用性语义与物体几何特征,适配未见过的可用性类别。
  2. 设计基于信息瓶颈原理的功能文本增强(FTE)策略,平衡类内多样性与类间可分性,系统构建语义空间。
  3. 开发多级表示学习方案,融合交叉熵损失与监督对比损失,建立模态间一致对应关系。
  4. 通过真实机器人实验验证,在零样本场景下显著提升3D可用性理解的有效性与泛化能力。

实验主要结果

论文网址:https://dl.acm.org/doi/pdf/10.1145/3746027.3755239

代码网址:https://github.com/wulin97/Aff3DFunc

点击阅读原文,获取更多论文

最佳学生论文:Building Embodied EvoAgent : A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models

Best Student Paper Award

机构:中国科学院自动化研究所、中国科学院大学人工智能学院、联想集团研究院、鹏城实验室

作者:Junyu Gao、Xuan Yao、Yong Rui、Changsheng Xu

研究方法:提出脑启发的Embodied EvoAgent框架,借鉴人类大脑左右半球功能分工,构建包含三个核心模块的统一范式。通过具身上下文增强多模态大语言模型(EC-MLLM)模拟左半球语言处理与逻辑分析能力,基于循环状态空间模型的感知上下文引导世界模型(PC-WM)模拟右半球空间感知与整体思维功能,再以动态通信槽(DCS)模拟胼胝体的信息传递机制,实现两模块高效双向交互与在线进化,提升智能体在具身任务中的执行能力与零样本泛化能力。

Framework Overview

创新点

  1. 提出脑启发的具身智能进化范式,将EC-MLLM与PC-WM有机融合,分别模拟大脑左右半球功能,实现多模态理解与环境动态建模的协同。
  2. 设计动态通信槽(DCS)模块,模拟胼胝体的信息传递机制,通过注意力基动态更新策略,实现两核心模块的高效双向信息交互与快速适配。
  3. 无需针对域外任务进行监督训练,依托具身探索经验与在线进化机制,显著提升智能体在零样本域外具身任务中的泛化能力与空间理解能力。
  4. 支持参数高效微调,在冻结主模型核心参数的同时保持其原有推理能力,仅优化新增模块即可实现性能提升,降低部署成本。

Comparison

论文网址:https://dl.acm.org/doi/pdf/10.1145/3746027.3754880

代码网址:https://feliciaxyao.github.io/EvoAgent/

点击阅读原文,获取更多论文

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值