【征稿&挑战赛】ACM MM 2025 第一届 “软体机器人视觉语言” 研讨会&挑战赛-CSDN博客

ACM MM 2025 第一届“软体机器人视觉语言”研讨会与挑战赛（RoboSoft'2025）将于2025年10月27–28日在爱尔兰都柏林（ACM MM 2025 期间）举行。

研讨会简介

具身智能通过机器人与环境的交互实现认知与决策，其发展历经从规则控制到深度学习与强化学习结合的自主系统阶段。当前，具身智能研究主要聚焦于刚性机器人载体。然而，刚性材料特性既限制了灵活性，又增加了碰撞风险，且在非结构化受限环境中适应性不足。

为突破上述局限，科研人员借鉴软体动物的生物特性，将柔性材料引入机器人设计，推动了以软体载体为核心的具身智能领域发展。软体机器人因可变形特性，提供了高适应性与安全性的解决方案，尤其适用于人机协作场景及复杂环境下的任务。尽管如此，其欠驱动特性与强非线性动力学特征，仍给自主控制系统设计带来显著挑战。

本次研讨会聚焦软体机器人的多模态感知与决策，深入探讨和推动以软体机器人为载体的具身智能前沿技术。

主页链接：https://buaa-colalab.github.io/Robo-Soft-25/

Invited Speakers

征稿主题 📖

本次研讨会投稿论文内容涵盖：

多模态具身导航（Multimodal Embodied Navigation）：visual navigation; vision-language navigation; soft robot navigation
多模态具身操作（Multimodal Embodied Manipulation）：grasping; dexterous manipulation; soft-hand manipulation; tool manipulation
具身推理（Embodied Reasoning）：spatial reasoning; affordance leanring; task planning
具身感知（Embodied Perception）：multi-modal perception, active perception
具身仿真与建模（Embodied Simulation)：2D/3D reconstruction; sim-to-real; benchmark
软体机器人控制方法（Control Methods for Soft Robots）：model-based/learning-based control methods

提交类型 🔍

在本次研讨会中，我们收录：

Workshop Paper（正文4-8页，加上至多2页的参考文献）：包括但不限于上述主题的原创想法、观点、研究愿景和开放挑战

论文提交网址：https://openreview.net/group?id=acmmm.org/ACMMM/2025/Workshop/Robosoft

提交模板可以在 ACM MM 2025 找到。Submission policies adhere to the ACM MM 2025 submission policies.

所有投稿将采用双盲审稿机制，并经过评审。

🎉 最终将评选Best Paper奖项

Robosoft 挑战赛

为激励多模态软体机器人规划与控制策略的研究，我们还举办Robosoft挑战赛，并分为视觉语言操控和视觉语言导航两个赛道。

本竞赛采用UIUC Gazzola实验室开发的开源软件Elastica进行软体动力学建模，构建了软体机器人动力学与交互仿真基准平台。在该基准中，软体机器人被建模为可在三维空间自由运动的单一Cosserat杆（在任务1中作为柔性机械臂，在任务2中作为柔性移动体）。该软杆具有10 MPa的弹性杨氏模量，呈现典型软体机器人弯曲刚度。驱动机制通过沿杆长分布的内部力矩实现，连续激活函数由N个独立控制点定义的样条曲线表征，并在杆体两端趋近于零。通过将整体驱动分解为局部法向、副法向（引发弯曲）及正交方向（引发扭转）的正交力矩函数实现精准控制。

任务1：软体机器人的视觉语言操控

视觉语言操控(Vision-Language Manipulation)旨在赋予软体机器人基于人类指令与视觉感知的物体交互能力，这一能力在制造与医疗领域至关重要，具体涉及物体抓取、部件装配、物品分类乃至手术辅助等场景。在本任务中，软体机器人需在包含立方体、球体、圆锥体等多种物体的复杂工作空间内执行操作。机器人一端固定于基座，另一端可自由运动以完成操控任务。系统输入包括自然语言指令与多视角视觉观测，其中指令明确待操作物体及其目标位置，机器人需先基于视觉观测对目标物体进行识别定位，继而执行动作将其运送至指定位置，当物体准确到达目标位置时，即视为操作成功。

Instruction:

Move the football to the basketball

Instruction:

Move the smaller yellow roadblocks next to the larger roadblocks

任务2：软体机器人的视觉语言导航

视觉语言导航(Vision-Language Navigation)要求软体机器人通过理解语言指令与解析视觉线索，在复杂环境中自主探索。该任务对灾害搜救和探索等应用有重要意义。在该任务中，智能体需处理包含视觉观测与自然语言指令的同步多模态输入，要求将视觉-语言模式与软体动力学建模进行跨模态对齐，将指令转化为由连续介质力学动作。解空间需在时变边界条件下联合优化语义定位精度、形变轨迹平滑度及避障可行性。软体机器人视觉语言导航为具身智能建立了一个新的研究领域，其中软体机器人通过动态环境中的形态适应来执行导航任务。