ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题

本文提出了Multimodality-Aware Autoencoder-based Affordance Learning (MAAL),通过自编码器学习3D物体的可供性特性,减少无效样本需求,同时引入多模态学习模块MME,有效处理不同模态信息,提升可供性学习效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

58029cdbaeb50c3dc7aa48fdca3c849d.gif

©PaperWeekly 原创 ·作者 | 梁远智

单位 | 悉尼科技大学

研究方向 | 具身智能

14e8b58b1a4a257ed2e9a2ee8450a060.png

论文标题:

MAAL: Multimodality-Aware Autoencoder-based Affordance Learning for 3D Articulated Objects

论文链接:

https://openaccess.thecvf.com/content/ICCV2023/papers/Liang_MAAL_Multimodality-Aware_Autoencoder-Based_Affordance_Learning_for_3D_Articulated_Objects_ICCV_2023_paper.pdf

Affordance 即可供性,指环境属性使得个体的某种行为得以实施的可能性。在 3D 场景下,如果我们想要让机器人和环境中的物体做交互,让机器理解物体可供性是十分基础和必要的一个步骤。机器需要去理解物体在哪里可以施加作用力,并可以施加什么样的动作。例如,如果机器人需要操作桌面上的水瓶,它需要理解何处可以抓取和如何抓取,而后通过执行动作来移动水瓶。

进一步的,类似水瓶这样的简单物体并不要求机器有深刻的理解能力。它可以抓取瓶身、瓶颈等任意地方,都可以挪动瓶子。现实生活中,人类操作物体的需求要远比这复杂。我们会面临大量的,带有铰链的,有特殊结构的物体,比如柜子、水龙头、冰箱、洗衣机等等。这些物体存在相对复杂的内部构造,不仅仅是挪动整个物体,我们常常需要根据物体的内在结果来操作物体,比如打开柜门,按下按钮等等。这一系列带有铰链结构的,相对复杂的物体给机器人的理解和操作能力提出了更高的要求。

目前,一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值