点击订阅“CAAI认知系统与信息处理专委会”
人类可以通过观察他人来学习技能。这种从观察中学习的能力—被称为视觉模仿[1]或第三人称模仿[2]。视觉模仿一直是人工智能中一个重要的研究课题。视觉模仿首先需要对演示者的视觉场景和随时间产生的场景变化有细致的理解,然后模仿者在自己的环境中产生类似的变化。因此视觉模仿可以归结为学习演示和模仿所处环境的视觉相似函数,通过模仿者的动作行为将视觉相似函数取最优值,得到正确的模仿行为。视觉相似性函数需要决定视觉观察中的哪些方面能够再现演示的技能,即函数需要定义模仿什么和忽略什么。
PMLR2020收录的《Graph-Structured Visual Imitation》中将视觉模仿作为视觉对应的问题,这篇论文基于计算机视觉方面的最新进展,如人类手指关键点检测器、合成增强实时训练的目标检测器、由视角变化[3]监督的点检测器和对每个演示所学习的多重视觉实体检测器。机器人 agent得到奖励的前提是其动作能够很好匹配演示与模仿场景中视觉实体的空间对应关系。文中提出的对实体及其空间配置的因式视觉表征可以在几分钟内成功地模仿各种操作技巧,并且只使用一次演示。该方法对复杂背景具有较强的鲁棒性,即使演示与模仿之间存在环境差异,也能有效泛化。
1. 分层图表示法
文中提出分层图表示法,称为Visual Entity Graphs (VEGs)。VEGs将场景部分抽象化,其中图中的节点表示跟随空间和时间的视觉实体(物体,部件或点),边表示它们的3D空间分布关系。文中构建两个分别对应演示与模仿的VEGs,它们的节点是一一对应,如图1所示。模仿学习的奖励函数则计算对应的每对节点的空间一致性,并利用少量真实交互的单个视频演示来指引操作任务的强化学习。



相同类型的边具有相同的权重,如物体节点与手节点的边,物体节点与物体节点的边,物体上的点到物体节点的边。研究人员根据经验来设置每边的权重,这也提供了一个未来研究方向,通过学习的方法来调整边的权重。
2、Detecting Visual Entities 要模仿一个对象的细微操作,仅仅推断其边界的平移是不够的,还需要推断和模拟对象的三维姿态和变形。文中的核心设计选择利用点特征探测器和运动检测的点在演示和模仿的环境中来推断物体的位姿变化。研究人员训练场景特定的对象和点检测器,保证在演示和模仿的环境可靠地识别视觉实体,还应用人手关键点检测器。点检测器在演示过程中的每一时间步都对目标检测区域进行随机重复采样,并在模仿者的视角下计算出对应点,从而对局部遮挡具有较好的鲁棒性。对于完全遮挡的情况,人手检测器和目标检测器会利用最后的已知位置。所以,文中提出的检测步骤对目标遮挡和检测失败情况鲁棒。 手关键点的检测。研究人员使用[4]提出的人手检测器检测人类的指关节,并使用D435 Intel RealSense RGB-D摄像机获得它们的3D位置。利用正运动学和一个相对于机器人坐标系的标定摄像机来检测机器人末端执行器尖端的三维位置。研究人员将Baxter机器人爪的指尖映射到演示者的拇指和食指指尖。在演示过程中,通过人手两个指尖之间的距离来检测抓取和释放动作。 交叉视图对应的点特征检测器。能够从多个视图中观察静态场景的主体可以通过[5]三角测量推断出不同视图之间的视觉对应关系。研究人员使用这些自生成的视觉对应来驱动深度特征描述的视觉度量学习,这些深度特征描述对物体姿态或摄像机视点的变化具有鲁棒性。经过训练后,在模仿和演示的环境中匹配点特征,以建立对应的[3]。研究人员通过自动的方式收集机器人代理的工作空间的多视图图像序列:使用一个RGB-D摄像机连接到机器人的末端执行器,并移动摄像机,同时沿随机轨迹在不同距离和多视角覆盖场景,并且根据机器人的正运动学模型通过手眼标定来估计摄像机的姿态,结合已知的内在参数和深度图像,对场景进行3D重建,并在不同视点上提供准确的像素对应。完整的特征学习设置如图2(b)所示。尽管监督是通过实例的对应来实现的,但VEG具有较好的泛化性,可用于演示中的新对象,如图3(b)所示。研究人员使用ResNet-34作为骨干,学习图像中每个像素的四维点嵌入向量。


------------------------------------------------------------

281

被折叠的 条评论
为什么被折叠?



