【AI视野·今日Robot 机器人论文速览 第八十四期】Thu, 7 Mar 2024

48 篇文章 2 订阅
8 篇文章 2 订阅

AI视野·今日CS.Robotics 机器人学论文速览
Thu, 7 Mar 2024
Totally 23 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

3D Diffusion Policy
Authors Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
模仿学习提供了一种教授机器人灵巧技能的有效方法,然而,稳健且普遍地学习复杂技能通常需要大量的人类演示。为了解决这个具有挑战性的问题,我们提出了 3D 扩散策略 DP3,这是一种新颖的视觉模仿学习方法,它将 3D 视觉表示的力量融入扩散策略(一类条件动作生成模型)中。 DP3 的核心设计是利用紧凑的 3D 视觉表示,通过高效的点编码器从稀疏点云中提取。在我们涉及 72 个模拟任务的实验中,DP3 仅通过 10 次演示就成功处理了大多数任务,并以 55.3 的相对改进超越了基线。在 4 个真实的机器人任务中,DP3 展示了精确的控制,每个任务仅进行 40 次演示,成功率高达 85,并且在空间、视点、外观和实例等多个方面表现出出色的泛化能力。有趣的是,在真实的机器人实验中,DP3 很少违反安全要求,而基线方法经常这样做,需要人工干预。我们的广泛评估强调了 3D 表示在现实世界机器人学习中的至关重要性。

Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation
Authors Marcel Torne, Anthony Simeonov, Zechu Li, April Chan, Tao Chen, Abhishek Gupta, Pulkit Agrawal
模仿学习方法需要大量的人类监督来学习对物体姿势、身体干扰和视觉干扰物变化稳健的策略。另一方面,强化学习可以自主探索环境以学习稳健的行为,但可能需要不切实际的大量不安全的现实世界数据收集。为了学习高性能、稳健的策略,而无需承担不安全的现实世界数据收集或广泛的人工监督的负担,我们提出了 RialTo,这是一种通过在数字孪生模拟环境中通过强化学习来增强现实世界模仿学习策略的系统,该环境是由少量真实数据即时构建的世界数据。为了实现这种真实到模拟到真实的管道,RialTo 提出了一个易于使用的界面,用于快速扫描和构建现实世界环境的数字孪生。我们还引入了一种新颖的逆蒸馏程序,可将现实世界的演示带入模拟环境中,以进行有效的微调,并且需要最少的人工干预和工程。我们针对现实世界中的各种机器人操作问题对 RialTo 进行了评估,例如将菜肴牢固地堆放在架子上、将书籍放在架子上以及其他六项任务。 RialTo 在不需要大量人工数据收集的情况下将策略稳健性提高了 67 以上。

Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation
Authors Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James
本文介绍了分层扩散策略 HDP,这是一种用于多任务机器人操作的分层代理。 HDP 将操纵策略分解为层次结构:预测远处下一个最佳末端效应器姿势 NBP 的高级任务规划代理,以及生成最佳运动轨迹的低级目标条件扩散策略。分解的策略表示使 HDP 能够处理长期任务规划,同时生成细粒度的低级别行动。为了在满足机器人运动学约束的同时生成上下文感知运动轨迹,我们提出了一种新颖的运动学感知目标条件控制代理,机器人运动学扩散器 RK 扩散器。具体来说,RK Diffuser 学习生成末端执行器姿势和关节位置轨迹,并通过可微运动学将精确但运动学未知的末端执行器姿势扩散器提炼为运动学感知但不太准确的关节位置扩散器。

Dexterous Legged Locomotion in Confined 3D Spaces with Reinforcement Learning
Authors Zifan Xu, Amir Hossain Raj, Xuesu Xiao, Peter Stone
利用深度强化学习 RL 的运动控制器的最新进展在跨越具有挑战性的地形(例如崎岖的岩石、非刚性地面和光滑的表面)实现快速、稳健的运动方面取得了令人印象深刻的成果。然而,虽然这些控制器主要解决机器人下方的挑战,但相对较少的研究调查了腿部在有限的 3D 空间中的移动性,例如狭窄的隧道或不规则的空隙,这些空间都会施加周围的约束。循环步态模式是由现有的基于强化学习的方法产生的,用于学习以运动参数(例如速度和身高)为特征的参数化运动技能,可能不足以导航机器人通过具有挑战性的有限 3D 空间,需要敏捷的 3D 避障和强大的腿部运动。相反,我们建议通过有限 3D 空间中的目标导向导航来学习端到端的运动技能。为了解决跟踪远程导航目标的低效率问题,我们引入了一种分层运动控制器,它结合了一个经典的规划器,其任务是规划路径点以到达远处的全局目标位置,以及一个基于强化学习的策略,该策略经过训练,通过生成低级运动命令来跟踪这些路径点。这种方法允许策略在整个解决方案空间内探索自己的运动技能,并促进本地目标之间的平稳过渡,从而实现向遥远目标的长期导航。在模拟中,我们的分层方法成功地在要求严格的受限 3D 环境中导航,优于纯粹的端到端学习方法和参数化运动技能。

Confidence-Aware Decision-Making and Control for Tool Selection
Authors Ajith Anil Meera, Pablo Lanillos
自我反思我们的表现,例如,我们在执行任务之前的信心对于决策至关重要,例如选择最合适的工具或选择最佳的驾驶路线。虽然这种关于我们的表现或元认知表现的意识形式在人类中是众所周知的,但机器人仍然缺乏这种认知能力。这种反思性监控可以增强其具体决策能力、稳健性和安全性。在这里,我们朝这个方向迈出了一步,引入了一个数学框架,允许机器人利用其控制自信做出更明智的决策。我们推导出动态系统控制置信度的数学封闭式表达式,即控制动作的后验逆协方差。这种控制信心无缝地集成到决策目标函数中,平衡了任务完成的绩效、控制努力和自信。为了评估我们的理论解释,我们在工具选择问题中制定了决策,其中代理必须为特定的控制任务选择最佳的机器人手臂。使用随机 2DOF 臂进行数值模拟的统计分析表明,在工具选择过程中使用控制置信度可以提高实际任务性能以及工具在未建模扰动(例如外力)下性能的可靠性。此外,我们的结果表明,控制置信度是性能的早期指标,因此,当计算能力受到限制或决策制定棘手时,它可以用作决策的启发式方法。

A Precision Drone Landing System using Visual and IR Fiducial Markers and a Multi-Payload Camera
Authors Joshua Springer, Gylfi r Gu mundsson, Marcel Kyas
我们提出了一种使用基准标记和带有广角、变焦和红外传感器的万向架安装的多有效载荷相机进行自主精确无人机着陆的方法。该方法的数据要求极低,主要取决于从无人机到着陆场的方向,使其能够在相机的不同传感器和变焦系数之间动态切换,并最大限度地减少辅助传感器的要求。它消除了对诸如地面高度、到着陆场的直线距离、基准标记尺寸以及方向有问题的 6 DoF 标记姿势等数据的需求。我们利用变焦和广角相机以及视觉 April Tag 基准标记,在比之前的工作(168m 水平距离、102m 高度)更长的距离上成功进行精确着陆。我们使用红外光谱中主动和被动两种类型的 April 标签来实现白天和夜间的精确着陆,而不是大多数先前工作中使用的简单红外信标。主动红外着陆平台在环境温度下加热,而被动红外着陆平台则不通电,依赖于其高反射率以及地面和天空之间的红外差异。最后,我们提出了一种高级控制策略来管理着陆场的初始搜索和后续搜索(如果在之前的工作中未解决)丢失的情况。该方法演示了着陆橇至少接触着陆垫的成功着陆,实现了 0.19m 的平均误差。

Emotional Tandem Robots: How Different Robot Behaviors Affect Human Perception While Controlling a Mobile Robot
Authors Julian Kaduk, Friederike Weilbeer, Heiko Hamann
在人机交互 HRI 中,我们研究人类如何与机器人交互,以及机器人行为对人类感知和福祉的影响。特别是,由一个人控和一个自主机器人组成的串联机器人甚至半自主多机器人系统对人类的影响尚未完全了解。在这里,我们重点关注领导者跟随者场景,并研究小型移动跟随者机器人的情感表达运动模式如何影响控制领导机器人的人类操作员的感知。我们检查了追随者的三种不同的情绪行为,并与中性状态下的愤怒、快乐和悲伤进行比较。我们分析了参与者如何沿着设定的路径操纵领导机器人,同时以随机顺序体验每个追随者的行为。我们发现,与中性条件相比,人们的注意力明显转向具有情感表达行为的追随者。例如,愤怒的行为显着提高了参与者的压力水平,并被认为是最不受欢迎的行为。快乐的行为是参与者最喜欢的,并且与增加的兴奋感相关。将所提出的行为集成到机器人中可以深刻地影响人类操作员的注意力、情绪状态和整体体验。

Robust MITL planning under uncertain navigation times
Authors Alexis Linard, Anna Gautier, Daniel Duberg, Jana Tumova
在办公室等环境中,机器人在两个位置之间导航的持续时间可能会随着时间的推移而变化。例如,午餐时间到达厨房可能需要更多时间,因为走廊里挤满了同路的人。在这项工作中,我们解决了此类环境中的路由问题,任务以度量间隔时间逻辑 MITL 表示,这是一种丰富的机器人任务规范语言,使我们能够捕获明确的时间要求。我们的目标是找到一种策略,最大限度地提高机器人 MITL 任务的时间鲁棒性。作为解决方案的第一步,我们定义了混合整数线性规划方法来解决变化加权转换系统上的任务规划问题,其中导航持续时间是确定性的,但根据一天中的时间而变化。然后,我们应用这个规划器来优化马尔可夫决策过程中的 MITL 时间鲁棒性,其中物理位置之间的导航持续时间是不确定的,但可能的延迟的时间相关分布是已知的。最后,我们为马尔可夫决策过程开发了一个后退地平线规划器,它保留了 MITL 时间鲁棒性的保证。

3D Object Visibility Prediction in Autonomous Driving
Authors Chuanyu Luo, Nuo Cheng, Ren Zhong, Haipeng Jiang, Wenyu Chen, Aoli Wang, Pu Li
随着硬件和软件技术的快速进步,自动驾驶的研究取得了长足的发展。多传感器自动驾驶的主流框架包括传感器安装、感知、路径规划、决策和运动控制。在感知阶段,一种常见的方法是利用神经网络从原始传感器数据推断 3D 边界框 Bbox 属性,包括分类、大小和方向。在本文中,我们提出了一种新颖的属性及其相应的算法:3D 对象可见性。通过结合多任务学习,可见性这一属性的引入对模型的有效性和效率的影响可以忽略不计。

Efficient Search and Learning for Agile Locomotion on Stepping Stones
Authors Adithya Kumar Chinnakkonda Ravi, Victor Dh din, Armand Jordana, Huaijiang Zhu, Avadesh Meduri, Ludovic Righetti, Bernhard Sch lkopf, Majid Khadiv
在过去的几年里,腿式机器人已经能够执行高动态的操作。然而,在高度受限的环境(如踏脚石)中敏捷运动仍然是一个挑战。在本文中,我们提出了基于模型的控制、搜索和学习的结合,为垫脚石上的敏捷运动设计有效的控制策略。在我们的框架中,我们使用非线性模型预测控制 NMPC 来生成给定接触计划的全身运动。为了有效地搜索最佳接触计划,我们建议使用蒙特卡罗树搜索 MCTS 。虽然MCTS和NMPC的结合可以在几秒钟内快速找到给定环境的可行计划,但它还不适合用作反应性策略。因此,我们为给定场景生成最佳目标条件策略的数据集,并通过监督学习来学习它。特别是,我们利用扩散模型的力量来处理数据集中的多模态。

Deployable polyhedrons with one-DOF radial transformation
Authors Yuanqing Gu, Yan Chen
可展开多面体可以在柏拉图多面体和阿基米德多面体之间进行转换,以满足各种工程应用的需求。然而,现有的设计方案往往具有多个自由度和复杂的机构连杆和关节,这极大地限制了其在实践中的潜力。结合立体几何学和机构运动学的基础知识,本文提出了一族基于空间 7R 连杆的 N 折叠对称环的剪纸阿基米德多面体,该多面体在四面体、八面体或二十面体对称性之后执行一个自由度径向变换。此外,在每个对称多面体组中,可以从一个相同的部署配置实现三个不同的转换路径。我们还证明了这种设计策略可以很容易地应用于多面体镶嵌。

Time-optimal Point-to-point Motion Planning: A Two-stage Approach
Authors Shuhao Zhang, Jan Swevers
本文提出了一种两阶段方法来制定时间最优点对点运动规划问题,包括具有固定时间网格的第一阶段和具有可变时间网格的第二阶段。所提出的方法通过其简单的最优控制问题公式带来了好处,该公式具有固定且少量的控制步骤,可管理计算复杂性,并避免与时间缩放相关的插值误差,特别是在旨在达到遥远目标时。此外,异步非线性模型预测控制 NMPC 更新方案与两阶段方法集成,以解决计算时间延迟和波动的问题,从而促进在线重新规划。

Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip Perception of Mobile Manipulation Robots
Authors Youngjae Yoo, Chung Yeon Lee, Byoung Tak Zhang
物体滑动感知对于移动操纵机器人在动态现实世界中可靠地执行操纵任务至关重要。机器人手臂滑动感知的传统方法使用触觉或视觉传感器。然而,移动机器人仍然必须处理由于机器人在不断变化的环境中运动而引起的传感器信号中的噪声。为了解决这个问题,我们提出了一种利用基于深度自动编码器模型的多传感器数据的异常检测方法。所提出的框架集成了从各种机器人传感器收集的异构数据流,包括 RGB 和深度相机、麦克风和力扭矩传感器。集成数据用于训练深度自动编码器,以构建指示正常状态的多感官数据的潜在表示。然后可以通过误差分数来识别异常,该误差分数是通过训练的编码器的潜在值和重构的输入数据的潜在值之间的差异来测量的。为了评估所提出的框架,我们进行了一项实验,模拟移动服务机器人在具有不同家庭物体和不同移动模式的现实环境中运行的物体滑动。

Unveiling the Complete Variant of Spherical Robots
Authors Hassen Nigatu, Li Jihao, Gaokun Shi, Guodong Lu, Huixu Dong
本研究使用分析速度水平方法对球形 SO 3 型并联机器人变体进行了系统枚举。这些机器人以其围绕固定点执行任意旋转的能力而闻名,这使得它们适用于多种应用。尽管它们的架构多种多样,但现有的研究主要是根据具体情况来处理它们。这种方法阻碍了对所有可能变体的探索,从而限制了架构多样性带来的好处。通过采用互螺旋法的广义分析方法,我们系统地探索了产生 SO 3 运动的肢体的所有运动学条件。因此,识别了适合产生目标 SO 3 运动的所有 73 种可能的非冗余肢体类型。该方法涉及执行深入的代数运动约束分析并识别不同变体之间的共同特征。这使我们系统地探索了所有 73 个对称变体和 5256 个不对称变体,总共 5329 个变体,每个变体都可能具有不同的工作空间能力、刚度性能和动力学。

Interactive Continual Learning Architecture for Long-Term Personalization of Home Service Robots
Authors Ali Ayub, Chrystopher Nehaniv, Kerstin Dautenhahn
为了让机器人在非结构化家庭环境中执行辅助任务,它们必须学习环境的语义知识并进行推理。尽管语义推理架构的发展重新兴起,但这些方法假设所有训练数据都是先验可用的。然而,每个用户的环境都是独特的,并且会随着时间的推移而不断变化,这使得这些方法不适合个性化家庭服务机器人。尽管持续学习的研究开发了可以随着时间的推移学习和适应的方法,但大多数这些方法都是在静态图像数据集上的对象分类的狭隘背景下进行测试的。在本文中,我们结合持续学习、语义推理和交互式机器学习文献的思想,开发了一种新颖的交互式持续学习架构,用于通过人机交互在家庭环境中持续学习语义知识。该架构建立在学习和记忆的核心认知原理之上,可以高效、实时地学习人类的新知识。我们将我们的架构与物理移动机械手机器人集成,并在实验室环境中进行了两个多月的广泛系统评估。

Foot Shape-Dependent Resistive Force Model for Bipedal Walkers on Granular Terrains
Authors Xunjie Chen, Aditya Anikode, Jingang Yi, Tao Liu
腿式机器人在非结构化和动态环境中表现出了高效率和有效性。然而,对于腿式机器人来说,要在可变形、易变形的基底(例如粒状地形)上实现快速有效的运动仍然具有挑战性。我们通过引入有效的侵入深度校正,为软粒状地形上的双足步行者提出了增强的阻力模型。增强的力模型捕获了考虑机器人足部形状、行走步态速度变化和能量消耗的基本动力学结果。该模型通过双足机器人进行的大量足部侵入实验进行了验证。结果证实了模型在给定类型颗粒地形上的准确性。

Multiple Update Particle Filter: Position Estimation by Combining GNSS Pseudorange and Carrier Phase Observations
Authors Taro Suzuki
本文提出了一种更新粒子滤波器 PF 中粒子的有效方法,以解决处理从多个观测值导出的尖峰似然函数时的位置估计问题。尖锐的峰值似然函数通常源自全球导航卫星系统 GNSS 中载波相位的毫米级精确距离观测。然而,当此类似然函数用于粒子权重更新时,峰值内不存在粒子会导致所有粒子权重变为零。为了克服这个问题,在本研究中,在处理从多个观测中获得的尖峰似然函数时,引入了一种简单有效的方法来更新粒子。所提出的方法称为多重更新 PF,利用有关每个似然函数分布扩展的先验知识,并在粒子更新过程中迭代地进行权重更新和重采样,优先考虑似然函数扩展。实验结果证明了我们提出的方法的有效性,特别是当应用于利用 GNSS 伪距和载波相位观测的位置估计时。与传统 PF 相比,多次更新 PF 具有更快的收敛速度和更少的粒子。

Bi-KVIL: Keypoints-based Visual Imitation Learning of Bimanual Manipulation Tasks
Authors Jianfeng Gao, Zhi Tao, No mie Jaquier, Tamim Asfour
得益于计算机视觉的最新进展,视觉模仿学习在从少量视觉观察中学习单手操作任务方面取得了令人瞩目的进展。然而,从双手视觉演示中学习双手协调策略和复杂的物体关系,以及将它们推广到新颖的杂乱场景中的分类物体仍然是尚未解决的挑战。在本文中,我们将之前基于关键点的视觉模仿学习 mbox K VIL 引用 gao kvil 2023 的工作扩展到双手操作任务。所提出的 Bi KVIL 联合提取物体和手之间所谓的 emph 混合主从关系 HMSR、双手协调策略和子符号任务表示。我们的双手任务表示以对象为中心,独立于具体体现,并且视角不变,因此可以很好地推广到新场景中的分类对象。我们在各种现实世界的应用中评估了我们的方法,展示了它从少量人类演示视频中学习细粒度双手操作任务的能力。

Active Information Gathering for Long-Horizon Navigation Under Uncertainty by Learning the Value of Information
Authors Raihan Islam Arnob, Gregory J. Stein
我们解决了在部分地图环境中进行长地平线导航的任务,其中主动收集有关遥远的看不见的空间的信息对于良好的行为至关重要。我们提出了一种新颖的规划策略,在训练时,可以对与揭示未见空间的潜在信息区域相关的信息值进行易于处理的计算,这些数据用于训练图神经网络以预测时间扩展的探索行为的优点。我们基于学习增强模型的规划方法可以预测揭示未见空间的信息的预期价值,并能够使用这些预测来主动寻找信息,从而改善长地平线导航。

F$^3$Loc: Fusion and Filtering for Floorplan Localization
Authors Changan Chen, Rui Wang, Christoph Vogel, Marc Pollefeys
在本文中,我们提出了一种有效的数据驱动解决方案,用于在平面图内进行自我定位。平面图数据易于获得、长期持久且对视觉外观的变化具有固有的鲁棒性。我们的方法不需要对每个地图和位置进行重新训练,也不需要感兴趣区域的大型图像数据库。我们提出了一种新颖的概率模型,由观察和新颖的时间过滤模块组成。观察模块采用基于光线的高效表示进行内部操作,由一个单视图模块和一个多视图模块组成,用于预测图像的水平深度并融合其结果,以受益于任一方法提供的优势。我们的方法在传统的消费类硬件上运行,并克服了通常需要直立图像的竞争方法的常见限制。

RACE-SM: Reinforcement Learning Based Autonomous Control for Social On-Ramp Merging
Authors Jordan Poots
在人类控制的交通中,坡道上的自主并行式合并仍然是自动驾驶车辆控制的一个现有问题。现有的非基于学习的车辆控制解决方案主要依赖于规则和优化。这些方法已被视为提出了重大挑战。深度强化学习的最新进展已显示出希望,并引起了学术界的广泛兴趣,但现有的基于学习的方法对其他公路车辆的关注不够,并且常常依赖于不准确的道路交通假设。另外,很少考虑并行式的情况。提出了一种用于加速和变道决策的新颖的基于学习的模型,该模型明确考虑了自我车辆及其周围车辆的效用,这些车辆可能合作或不合作以产生社会可接受的行为。新颖的奖励函数利用社会价值取向对车辆的社会合作水平进行加权,分为自我车辆和周围车辆效用,根据模型指定的社会价值取向进行加权。考虑了一条两车道高速公路,其入口坡道分为锥形部分和平行部分。仿真结果表明了在奖励函数设计中考虑周围车辆的重要性,并表明所提出的模型在碰撞方面匹配或超越了文献中的模型,同时通过直接考虑合并的效果引入了避免险情的社交礼貌行为和反社交行为

Collision Avoidance Verification of Multiagent Systems with Learned Policies
Authors Zihao Dong, Shayegan Omidshafiei, Michael Everett
对于许多多智能体控制问题,神经网络 NN 已经实现了有前途的新功能。然而,许多这些系统缺乏正式的保证,例如避免碰撞、鲁棒性,这阻碍了在安全关键设置中利用这些进步。虽然最近有关于神经网络控制系统的形式验证的工作,但大多数现有技术无法处理具有多个代理的场景。为了解决这一研究空白,本文提出了一种基于后向可达性的方法,用于验证多智能体神经反馈循环 MA NFL 的防撞特性。给定每个智能体的动力学模型和经过训练的控制策略,所提出的算法通过为每对智能体离线求解一系列混合整数线性程序 MILP 来计算相对反投影集。我们的成对方法是可并行的,因此可以随着代理数量的增加而很好地扩展,并且我们考虑了状态测量的不确定性,使其与现实世界的场景保持良好的一致。利用这些结果,智能体可以通过求解低维线性程序 LP 来快速在线检查碰撞避免情况。我们证明所提出的算法可以验证 MA NFL 的无碰撞特性,其中代理经过训练可以模仿碰撞避免算法 Reciprocal Velocity Obstacles 。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值