ACM MM2025 最佳论文 & 最佳学生论文出炉，4711 篇投稿中脱颖而出，3D 理解与具身智能天花板！

原创于 2025-11-04 14:46:08 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

ACM国际多媒体会议（ACM International Conference on Multimedia，简称ACM MM）是由美国计算机协会（ACM）主办的国际多媒体领域顶级盛会，也是中国计算机学会（CCF）推荐的A类会议。该会议始于1993年，每年举办一次。会议专注于多媒体技术领域的最新研究成果、技术创新和行业趋势，涵盖多媒体内容的创建、处理、传输和交互等多个方面，旨在促进学术界和工业界在多媒体技术应用和产品开发方面的交流与合作。

ACMMM2025
2025年的第33届会议于10月27日至31日在爱尔兰都柏林举行，总计收到有效投稿4711篇，最终成功录用1251篇，录用率达26.6%。与前一年相比，录用率有所上升，但总体而言仍维持在较为稳定的水平，对于广大作者来说，该会议依旧值得投稿。

年份	投稿量	录取量	录取率
2025	4711	1251篇	26.6%
2024	4385	1149篇	26.20%
2023	3072	902篇	29.40%
2022	2473	690篇	27.90%
2021	1942	542篇	27.90%

会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像方向。小编今天给大家介绍一下本次大会的两篇Best Papers 工作！

点击阅读原文，获取更多论文

最佳论文：Open-Vocabulary 3D Affordance Understanding via Functional Text Enhancement and Multilevel Representation Alignment

Best Paper Award

机构：英国格拉斯哥大学

作者：Lin Wu，Wei Wei，Peizhuo Yu，Jianglin Lan∗

研究方法：提出Aff3DFunc框架，基于信息瓶颈原理设计功能文本增强模块，通过双编码器架构提取点云几何特征与文本语义特征，结合多级表示对齐策略和监督对比学习，实现3D开放词汇可用性理解，支持零样本场景泛化并通过真实机器人验证。

The proposed framework Aff3DFunc

创新点：

提出轻量级开放词汇框架Aff3DFunc，联合建模可用性语义与物体几何特征，适配未见过的可用性类别。
设计基于信息瓶颈原理的功能文本增强（FTE）策略，平衡类内多样性与类间可分性，系统构建语义空间。
开发多级表示学习方案，融合交叉熵损失与监督对比损失，建立模态间一致对应关系。
通过真实机器人实验验证，在零样本场景下显著提升3D可用性理解的有效性与泛化能力。

实验主要结果

论文网址：https://dl.acm.org/doi/pdf/10.1145/3746027.3755239

代码网址：https://github.com/wulin97/Aff3DFunc

点击阅读原文，获取更多论文

最佳学生论文：Building Embodied EvoAgent : A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models

Best Student Paper Award

机构：中国科学院自动化研究所、中国科学院大学人工智能学院、联想集团研究院、鹏城实验室

作者：Junyu Gao、Xuan Yao、Yong Rui、Changsheng Xu

研究方法：提出脑启发的Embodied EvoAgent框架，借鉴人类大脑左右半球功能分工，构建包含三个核心模块的统一范式。通过具身上下文增强多模态大语言模型（EC-MLLM）模拟左半球语言处理与逻辑分析能力，基于循环状态空间模型的感知上下文引导世界模型（PC-WM）模拟右半球空间感知与整体思维功能，再以动态通信槽（DCS）模拟胼胝体的信息传递机制，实现两模块高效双向交互与在线进化，提升智能体在具身任务中的执行能力与零样本泛化能力。

Framework Overview