【AI视野·今日Robot 机器人论文速览第五十四期】Fri, 13 Oct 2023

hitrjj

已于 2023-10-14 22:15:09 修改

阅读量951

点赞数 12

分类专栏：机器人触觉 Papers 文章标签：机器人触觉多任务学习机器人操作导航自动驾驶触觉感知

于 2023-10-14 10:58:52 首次发布

本文链接：https://blog.csdn.net/u014636245/article/details/133822594

版权

Papers 同时被 3 个专栏收录

457 篇文章 122 订阅

订阅专栏

机器人

73 篇文章 13 订阅

订阅专栏

触觉

48 篇文章 2 订阅

订阅专栏

AI视野·今日CS.Robotics 机器人学论文速览
Fri, 13 Oct 2023
Totally 45 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚AI与机器人安全, 从攻击界面、伦理法律和人机交互层面进行了论述。(from 密西西比大学)
在这里插入图片描述

📚机器人与图机器学习综述, (from 都灵理工)
在这里插入图片描述

📚PolyTask, 基于多任务学习实现统一模型策略。(from 纽约大学)
在这里插入图片描述

website:poly-task.github.io

📚ArUcoTactile, 基于ArUco标记的的精确触觉传感器。(from 得克萨斯奥斯丁分校)
在这里插入图片描述

📚, (from )

Daily Robotics Papers

Universal Visual Decomposer: Long-Horizon Manipulation Made Easy
Authors Zichen Zhang, Yunshuang Li, Osbert Bastani, Abhishek Gupta, Dinesh Jayaraman, Yecheng Jason Ma, Luca Weihs
现实世界的机器人任务延伸到更广阔的视野并包含多个阶段。然而，学习长期操作任务是一个长期存在的挑战，需要将总体任务分解为几个可管理的子任务，以促进策略学习和对看不见的任务的泛化。先前的任务分解方法需要特定于任务的知识，计算量大，并且不能轻易应用于新任务。为了解决这些缺点，我们提出了通用视觉分解器 UVD，这是一种现成的任务分解方法，使用专为机器人控制设计的预先训练的视觉表示来进行视觉长视野操作。在较高层面上，UVD 通过检测预训练表示的嵌入空间中的相移来发现子目标。 UVD 纯粹基于视觉演示而无需辅助信息，可以有效地提取视频中嵌入的视觉子目标，同时在标准视觉运动策略培训之上产生零额外培训成本。通过 UVD 学习的目标条件策略发现，子目标在测试时对未见过的任务表现出显着改善的组合泛化。此外，UVD 发现子目标可用于构建基于目标的奖励塑造，从而启动强化学习的临时扩展探索。我们在模拟和现实世界任务上广泛评估了 UVD，并且在所有情况下，UVD 在域内和域外任务序列上的模仿和强化学习设置上都远远优于基线，验证了简单的自动视觉任务分解的明显优势。

Learning to Act from Actionless Videos through Dense Correspondences
Authors Po Chen Ko, Jiayuan Mao, Yilun Du, Shao Hua Sun, Joshua B. Tenenbaum
在这项工作中，我们提出了一种构建基于视频的机器人策略的方法，该策略能够通过少量视频演示在不同的机器人和环境中可靠地执行各种任务，而无需使用任何动作注释。我们的方法利用图像作为与任务无关的表示，对状态和动作信息进行编码，并利用文本作为指定机器人目标的通用表示。通过合成使机器人执行动作产生幻觉的视频，并结合帧之间的密集对应关系，我们的方法可以推断出要在环境中执行的封闭式动作，而不需要任何明确的动作标签。这种独特的功能使我们能够仅基于 RGB 视频来训练策略，并将学习到的策略部署到各种机器人任务中。我们展示了我们的方法在学习桌面操作和导航任务策略方面的有效性。

PolyTask: Learning Unified Policies through Behavior Distillation
Authors Siddhant Haldar, Lerrel Pinto
能够解决各种任务的统一模型在视觉和 NLP 领域获得了关注，因为它们能够跨任务共享规律和结构，从而提高单个任务的性能并减少计算占用量。然而，此类模型在具体学习问题中的影响仍然有限，由于交互性、样本效率低下和顺序任务呈现，这些问题带来了独特的挑战。在这项工作中，我们提出了 PolyTask，一种学习单个统一模型的新颖方法，该模型可以通过学习然后提炼机制解决各种具体任务。在学习步骤中，PolyTask 利用每个任务的一些演示来训练特定于任务的策略。然后，在蒸馏步骤中，使用称为行为蒸馏的新蒸馏方法将特定于任务的策略蒸馏为单个策略。给定统一的策略，可以通过条件变量提取个体任务行为。 PolyTask 的设计概念简单，同时能够利用 RL 中完善的算法来实现交互性，通过一些专家演示来提高样本效率，并防止在蒸馏过程中交互式访问任务以实现终身学习。

Security Considerations in AI-Robotics: A Survey of Current Methods, Challenges, and Opportunities
Authors Subash Neupane, Shaswata Mitra, Ivan A. Fernandez, Swayamjit Saha, Sudip Mittal, Jingdao Chen, Nisha Pillai, Shahram Rahimi
机器人技术和人工智能自诞生以来，人工智能就一直密不可分地交织在一起。如今，从机器人吸尘器到半自动汽车，人工智能机器人系统已成为我们日常生活中不可或缺的一部分。这些系统建立在感知、导航和规划以及控制三个基本架构元素之上。然而，虽然人工智能机器人系统的集成提高了我们的生活质量，但也带来了一个严重的问题，这些系统容易受到安全攻击。构成人工智能机器人系统的物理组件、算法和数据可能被恶意行为者利用，可能导致可怕的后果。出于解决人工智能机器人系统安全问题的需要，本文提出了跨攻击面、道德和法律问题以及人机交互 HRI 安全三个维度的全面调查和分类。我们的目标是为用户、开发人员和其他利益相关者提供对这些领域的全面了解，以增强人工智能机器人系统的整体安全性。我们首先调查潜在的攻击面并提供缓解防御策略。然后，我们深入研究伦理问题，例如依赖性和心理影响，以及有关这些系统责任的法律问题。此外，还讨论了 HRI 等新兴趋势，考虑到隐私、完整性、安全性、可信度和可解释性问题。

An Experience-based TAMP Framework for Foliated Manifolds
Authors Jiaming Hu, Shrutheesh R. Iyer, Henrik I. Christensen
由于其复杂性，叶状结构问题常常给机器人操作中的任务和运动规划带来复杂的挑战。为了解决这个问题，我们的研究提出了叶状重复路线图。该路线图通过将复杂的叶状结构问题转换为更易于访问的图形格式来帮助任务和运动规划者。通过利用来自不同叶流形的查询经验，我们的框架可以动态且高效地更新该图。细化图可以生成分布集，优化叶状结构问题中的运动规划性能。

Modeling Lead-vehicle Kinematics For Rear-end Crash Scenario Generation
Authors Jian Wu, Carol Flannagan, Ulrich Sander, Jonas B rgman
使用虚拟安全评估作为评估车辆安全技术的主要方法强调了碰撞场景生成的重要性。最常见的碰撞类型之一是追尾碰撞，其中涉及前车和后车。大多数研究都集中在后车上，假设前车在碰撞前保持恒定的加速度和减速度。然而，文献中没有证据证明这一前提。本研究旨在通过彻底分析和建模领先车辆的行为来解决这一知识差距，作为生成追尾事故场景的第一步。因此，该研究采用分段线性模型来参数化领先车辆的速度曲线，利用两个后端碰撞前接近碰撞的数据集。这些数据集被合并并分类为每个子数据集，构建多元分布来表示相应的参数。随后，使用这些分布模型生成合成数据集，并通过与原始组合数据集进行比较来进行验证。结果突出显示了不同的引导车辆速度模式，表明需要更准确的模型，例如所提出的分段线性模型，而不是传统的恒定加速减速模型。使用所提出的模型生成的碰撞与整个严重程度范围内的碰撞数据精确匹配，在严重程度范围和准确性方面都超过了现有的领先车辆运动学模型。

MUN-FRL: A Visual Inertial LiDAR Dataset for Aerial Autonomous Navigation and Mapping
Authors Ravindu G. Thalagala, Sahan M. Gunawardena, Oscar De Silva, Awantha Jayasiri, Arthur Gubbels, George K.I Mann, Raymond G. Gosine
本文提出了使用多传感器有效载荷捕获的独特的户外航空视觉惯性激光雷达数据集，以促进全球导航卫星系统 GNSS 拒绝导航研究。该数据集的飞行距离范围为 300m 至 5km，使用 DJI M600 六旋翼无人机和国家研究委员会 NRC Bell 412 先进系统研究飞机 ASRA 收集。该数据集由硬件同步单目图像、IMU 测量、3D LiDAR 点云和基于高精度实时运动 RTK GNSS 的地面实况组成。 10 个数据集被收集为 ROS 包，涵盖 100 分钟的室外环境镜头，范围包括城市地区、高速公路、山坡、草原和海滨。收集数据集是为了促进基于现实世界无人机和全尺寸直升机数据的视觉惯性激光雷达里程计和测绘算法、视觉惯性导航算法、物体检测、分割和着陆区检测算法的开发。所有数据集都包含原始传感器测量值、硬件时间戳和时空对齐的地面实况。传感器的内在和外在校准也与原始校准数据集一起提供。

Towards Design and Development of an ArUco Markers-Based Quantitative Surface Tactile Sensor
Authors Ozdemir Can Kara, Charles Everson, Farshid Alambeigi
在本文中，为了量化基于视觉的触觉传感器 VTS 的定性图像输出，我们介绍了一种称为 QS TS 的新型定量表面触觉传感器的设计、制造和表征。 QS TS 直接实时估计传感器的凝胶层变形，从而能够使用机器人操纵器对精致物体进行安全、自主的触觉操作和伺服。该传感器的核心是利用微型 1.5 毫米 x 1.5 毫米合成方形标记，具有内部二进制图案和宽黑色边框，称为 ArUco 标记。每个 ArUco 标记都可以提供实时相机姿态估计，在我们的设计中，该估计用作获得 QS TS 凝胶层变形的定量测量。此外，由于使用了 ArUco 标记，我们提出了一种独特的制造程序，可以减轻与现有基于标记的 VTS 的制造相关的各种挑战，并为 VTS 的构建提供直观且不那么费力的方法。值得注意的是，所提出的制造有利于标记与凝胶层的集成和粘附，从而无论 ArUco 标记的方向如何，都能实时可靠地获得变形的定量测量。我们对所提出的 QS TS 在估计传感器凝胶层变形方面的性能和功效进行了实验评估和验证。

Uncertainty-Aware Planning for Heterogeneous Robot Teams using Dynamic Topological Graphs and Mixed-Integer Programming
Authors Cora A. Dimmig, Kevin C. Wolfe, Marin Kobilarov, Joseph Moore
不确定性下的规划是机器人技术的一个基本挑战。对于多机器人团队来说，挑战会进一步加剧，因为随着机器人数量的增加，规划问题很快就会变得计算上难以解决。在本文中，我们提出了一种使用异构多机器人团队在不确定性下进行规划的新方法。特别是，我们利用动态拓扑图和混合整数规划的概念来生成多机器人计划，部署快速侦察团队成员以减少环境的不确定性。我们在许多代表性场景中测试我们的方法，在这些场景中，机器人团队必须在环境中移动，同时在存在不确定观察者位置的情况下最大限度地减少检测。

ALPHA: Attention-based Long-horizon Pathfinding in Highly-structured Areas
Authors Chengyang He, Tianze Yang, Tanishq Duhan, Yutong Wang, Guillaume Sartoretti
多智能体寻路 MAPF 问题在已知环境中为一组智能体寻找从当前位置到预设目标的无碰撞路径，是许多物流、运输和通用机器人应用的核心问题。现有的基于学习的 MAPF 方法通常只让每个代理基于其位置周围的有限视野 FOV 做出决策，作为固定其策略网络输入维度的自然手段。然而，这通常会使政策变得短视，因为智能体缺乏感知和规划超出其视野范围的障碍的能力。为了应对这一挑战，我们提出了 ALPHA，这是一种新框架，结合使用地面实况近端局部信息和模糊远端全局信息，让智能体根据系统的完整当前状态对局部决策进行排序，并避免这种短视。我们进一步允许智能体对彼此的路径进行短期预测，作为推理彼此路径意图的手段，从而提高整个系统级别的智能体之间的合作水平。我们的神经结构依赖于 Graph Transformer 架构，允许代理选择性地组合这些不同的信息源，并推理它们在不同空间尺度上的相互依赖关系。

Multicriteria Optimization of Lower Limb Exoskeleton Mechanism
Authors Sayat Ibrayev, Arman Ibrayeva, Ayaulym Rakhmatullina, Aizhan Ibrayeva, Bekzat Amanov, Nurbibi Imanbayeva
典型的腿部外骨骼采用开环运动链，电机直接放置在活动关节上，虽然这种设计提供了灵活性，但由于自由度高，导致成本增加和控制复杂性增加。正如现有文献所强调的那样，使用重型伺服电机来处理主动关节中的扭矩会导致设计复杂且笨重。在这项研究中，我们介绍了一种新颖的合成方法，并为合成下肢外骨骼提供了解析解。此外，我们还通过六个设计标准纳入了多标准优化。

Hilbert Space Embedding-based Trajectory Optimization for Multi-Modal Uncertain Obstacle Trajectory Prediction
Authors Basant Sharma, Aditya Sharma, K.Madhava Krishna, Arun Kumar Singh
安全的自动驾驶很大程度上取决于自我车辆预测邻近车辆轨迹的能力。为此，现有文献中提出了几种轨迹预测算法。许多这些方法输出障碍物轨迹的多模态分布，而不是单一的确定性预测来解释潜在的不确定性。然而，现有的规划器无法仅基于预测的样本级别信息来处理多模态。出于这个动机，本文提出了一种轨迹优化器，它可以以计算上易于处理且样本有效的方式利用预测的分布方面。我们的优化器可以处理任意复杂的分布，因此可以与表示为深度神经网络的输出分布一起使用。我们方法的核心是建立在再现内核希尔伯特空间 RKHS 中的嵌入分布之上，我们通过两种方式利用它。首先，我们提出了一种 RKHS 嵌入方法来从障碍物轨迹分布中选择可能的样本。其次，我们将机会约束优化重新表述为 RKHS 中的分布匹配，并为其解决方案提出了一种新颖的基于采样的优化器。

The Impact of Time Step Frequency on the Realism of Robotic Manipulation Simulation for Objects of Different Scales
Authors Minh Q. Ta, Holly Dinkel, Hameed Abdul Rashid, Yangfei Dai, Jessica Myers, Tan Chen, Junyi Geng, Timothy Bretl
这项工作评估了时间步频率和组件规模对机器人操纵仿真精度的影响。增加小规模物体的时间步频率可以提高模拟精度。

Slip Detection and Surface Prediction Through Bio-Inspired Tactile Feedback
Authors Dexter R. Shepherd, Phil Husbands, Andy Philippides, Chris Johnson
高分辨率触觉传感在自主移动机器人领域具有巨大潜力，特别是对于腿式机器人。它具有重大前景的一个特殊领域是穿越具有挑战性的多变地形。根据环境是湿滑、柔软、坚硬还是干燥，机器人必须相应地调整其运动方法。目前，许多多足机器人，例如波士顿动力的 Spot 机器人，已经针对不同的表面类型预设了步态，但在表面类型频繁变化的地形上却很吃力。能够自动检测环境内的变化将使机器人能够自主调整其运动方法以更好地适应条件，而无需人类用户手动设置表面类型的变化。在本文中，我们报告了对特定仿生触觉传感器 TacTip 特性的首次详细研究，以测试其对这种表面状况自动检测的适用性。我们探索了不同的处理技术和回归模型，使用定制的数据收集装置来确定机器人如何在各种条件下感知传感器上的方向性和一般性力。这使我们能够成功演示如何使用传感器来区分软、硬、干和湿滑的表面。我们进一步探索了一种神经模型来对特定表面纹理进行分类。引脚移动（传感器内光学标记的移动）是感测此信息的关键，并且所有模型都依赖于某种形式的时间信息。

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
Authors Takahiro Maeda, Keisuke Takeshita, Kazuhito Tanaka
为了实现安全且复杂的人类机器人物理交互 pHRI，机器人需要估计目标人的准确身体姿势或网格。然而，在这些 pHRI 场景中，机器人无法通过配备的摄像头充分观察目标人的身体，因为目标人通常距离机器人很近。这会导致严重的截断和遮挡，并导致人体姿态估计的准确性较差。为了在来自相机的有限信息上提高人体姿势估计或网格恢复的准确性，我们提出了配备的相机和其他传感器（例如触摸传感器和 2D LiDAR）的主动测量和传感器融合框架。这些触摸和 LiDAR 传感是通过 pHRI 获得的，无需额外成本。这些传感器测量结果虽然稀疏，但为人体网格恢复提供了可靠且信息丰富的线索。在我们的主动测量过程中，相机视点和传感器放置是根据估计位姿的不确定性进行优化的，这与截断或遮挡区域密切相关。在我们的传感器融合过程中，我们通过最小化估计网格和测量位置之间的距离，将传感器测量结果融合到基于相机的估计姿态。我们的方法与机器人配置无关。实验是使用丰田人类支持机器人进行的，该机器人在机器人手臂上配有摄像头、2D LiDAR 和触摸传感器。我们提出的方法在定量比较中证明了人体姿态估计精度的优越性。

Multi-Modal Sensor Fusion and Object Tracking for Autonomous Racing
Authors Phillip Karle, Felix Fent, Sebastian Huch, Florian Sauerbeck, Markus Lienkamp
周围物体的可靠检测和跟踪对于自动驾驶车辆的全面运动预测和规划是必不可少的。由于单个传感器的局限性，需要多种传感器模式的融合来提高整体检测能力。此外，鲁棒的运动跟踪对于减少传感器噪声的影响和提高状态估计精度至关重要。在自动驾驶赛车中车辆操控极限的复杂、对抗性高速场景中，自动驾驶汽车软件的可靠性变得更加重要。在本文中，我们提出了一种适用于高速应用的模块化多模态传感器融合和跟踪方法。该方法基于扩展卡尔曼滤波器 EKF，能够融合异构检测输入以一致地跟踪周围物体。一种新颖的延迟补偿方法能够减少感知软件延迟的影响并输出更新的对象列表。它是第一个在 2021 年印地自主挑战赛和 2022 年 CES AC CES 自主挑战赛上在高速现实场景中经过验证的融合和跟踪方法，证明了其在嵌入式系统上的鲁棒性和计算效率。它不需要任何标记数据并实现低于 0.1 m 的位置跟踪残差。

Model Predictive Inferential Control of Neural State-Space Models for Autonomous Vehicle Motion Planning
Authors Iman Askari, Xumein Tu, Shen Zeng, Huazhen Fang
模型预测控制 MPC 已被证明对于实现自动驾驶车辆的安全和最佳运动规划非常有用。在本文中，我们研究了当神经状态空间模型代表车辆动力学时如何实现基于 MPC 的运动规划。由于神经状态空间模型将导致高度复杂、非线性和非凸的优化环境，主流的基于梯度的 MPC 方法计算量太大，无法成为可行的解决方案。首先，我们提出了模型预测推理控制 MPIC 的想法，它试图从控制目标和约束中推断出最佳控制决策。遵循这个想法，我们将运动规划的 MPC 问题转换为贝叶斯状态估计问题。然后，我们开发了一种新的粒子滤波平滑方法来执行估计。该方法以无迹卡尔曼滤波器平滑器组的形式实现，并提供高采样效率、快速计算和估计精度。我们通过对不同场景下自动驾驶的模拟研究以及与基于梯度的 MPC 的详尽比较来评估 MPIC 方法。

Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation
Authors Yinpei Dai, Run Peng, Sikai Li, Joyce Chai
零射击对象导航 ZSON 使代理能够在未知环境中导航到开放词汇对象。 ZSON 的现有工作主要集中于遵循单独的指令来查找通用对象类，忽略了自然语言交互的利用以及识别用户特定对象的复杂性。为了解决这些限制，我们引入了零样本交互式个性化对象导航 ZipON，其中机器人需要在与用户对话的同时导航到个性化目标对象。为了解决 ZipON 问题，我们提出了一个名为开放世界交互式个性化导航 ORION 的新框架，它使用大型语言模型 LLM 做出顺序决策来操纵不同的感知、导航和通信模块。实验结果表明，能够利用用户反馈的交互代理的性能有了显着的提高。然而，对于所有方法来说，在任务完成与导航和交互效率之间获得良好的平衡仍然具有挑战性。

Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models
Authors Bangguo Yu, Hamidreza Kasaei, Ming Cao
在先进的人类机器人交互任务中，视觉目标导航对于自主机器人在未知环境中导航至关重要。虽然过去已经开发了许多方法，但大多数都是为单个机器人操作而设计的，由于环境的复杂性，这些方法常常会降低效率和鲁棒性。此外，多机器人协作的学习策略是资源密集型的。为了应对这些挑战，我们提出了 Co NavGPT，这是一个创新框架，集成了大型语言模型法学硕士作为多机器人协作视觉目标导航的全局规划器。 Co NavGPT 将探索的环境数据编码为提示，增强法学硕士的场景理解。然后，它为每个机器人分配探索边界，以实现高效的目标搜索。 Habitat Matterport 3D HM3D 上的实验结果表明，Co NavGPT 在无需任何学习过程的情况下在成功率和效率上超越了现有模型，展示了法学硕士在多机器人协作领域的巨大潜力。

What Matters to You? Towards Visual Representation Alignment for Robot Learning
Authors Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
在为人类服务时，机器人需要根据最终用户的偏好来优化奖励。由于机器人将依赖于 RGB 图像等原始感知输入，因此它们的奖励将不可避免地使用视觉表示。最近，人们对使用预先训练的视觉模型的表示感到兴奋，但在机器人技术中进行这些工作的关键是微调，这通常是通过动态预测或强制时间循环一致性等代理任务来完成的。然而，所有这些代理任务都绕过了人类对对他们来说重要的事情的输入，加剧了虚假相关性，并最终导致机器人行为与用户偏好不一致。在这项工作中，我们建议机器人应该利用人类反馈来使它们的视觉表示与最终用户保持一致，并理清对任务重要的内容。我们提出了基于表示对齐偏好的学习 RAPL，这是一种通过基于偏好的学习和最优传输的视角来解决视觉表示对齐问题和视觉奖励学习问题的方法。

Unraveling the Single Tangent Space Fallacy: An Analysis and Clarification for Applying Riemannian Geometry in Robot Learning
Authors No mie Jaquier, Leonel Rozo, Tamim Asfour
在机器人领域，许多下游机器人任务利用机器学习方法来处理、建模或合成数据。通常，这些数据包含固有地带有几何约束的变量，例如表示刚体方向的四元数的单位范数条件或刚度和可操纵性椭球体的正定性。有效处理此类几何约束需要将微分几何工具纳入机器学习方法的制定中。在这种背景下，黎曼流形成为处理此类几何约束的强大数学框架。然而，它们最近在机器人学习中的采用很大程度上以数学上有缺陷的简化为特征，以下称为单切线空间谬误。这种方法仅涉及将感兴趣的数据投影到单个切线欧几里得空间上，在该空间上应用现成的学习算法。本文从理论上阐明了围绕该方法的各种误解，并提供了其缺点的实验证据。

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration
Authors Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine
在陌生环境中进行导航的机器人学习需要为面向任务的导航（即达到机器人已定位的目标）和与任务无关的探索（即在新的环境中搜索目标）提供策略。通常，这些角色由单独的模型处理，例如通过使用子目标建议、规划或单独的导航策略。在本文中，我们描述了如何训练单个统一扩散策略来处理目标定向导航和目标不可知探索，后者提供搜索新环境的能力，而前者提供一次达到用户指定目标的能力它已被定位。我们表明，与使用生成模型的子目标建议的方法或基于潜在变量模型的先前方法相比，在新环境中导航到视觉指示的目标时，这种统一的策略会带来更好的整体性能。我们通过使用基于来自多个地面机器人的数据训练的大规模 Transformer 策略来实例化我们的方法，并使用扩散模型解码器来灵活处理目标条件导航和目标不可知导航。我们的实验是在现实世界的移动机器人平台上进行的，与五种替代方法相比，显示了在看不见的环境中的有效导航，并展示了性能的显着改进和更低的碰撞率，尽管使用的模型比最先进的方法更小。

ASV Station Keeping under Wind Disturbances using Neural Network Simulation Error Minimization Model Predictive Control
Authors Jalil Chavez Galaviz, Jianwen Li, Ajinkya Chaudhary, Nina Mahmoudian
位置保持是自主地面车辆 ASV 的一项重要操作，主要是在有限空间中使用时，用于执行需要 ASV 保持其位置或与相对位置对任务有影响的其他车辆协作的调查。然而，由于需要 ASV 动力学和环境扰动的精确模型，这种操作对于经典反馈控制器来说可能会变得具有挑战性。这项工作提出了一种使用神经网络仿真误差最小化 NNSEM MPC 的模型预测控制器来准确预测 ASV 在风扰动下的动态。使用机器人操作系统 ROS 和多用途仿真环境 Gazebo，对所提出的方案在风扰动下的性能进行了测试，并与仿真中的其他控制器进行了比较。结合两种风速3米秒和6米秒以及三种风向0周、90周和180周进行了一组六次测试。仿真结果清楚地表明了NNSEM MPC相对于以下方法的优势：反步控制器、滑模控制器、简化动力学MPC SD MPC、神经常微分方程MPC NODE MPC和基于知识的NODE MPC KNODE MPC。所提出的 NNSEM MPC 方法在 6 个测试条件中的 4 个中表现优于其他方法，并且在其余 2 个测试用例中排名第二，在所有测试中分别将平均位置和航向误差分别减少了至少 31 和 46案例。在执行速度方面，所提出的 NNSEM MPC 比其他 MPC 控制器至少快 36。

VaPr: Variable-Precision Tensors to Accelerate Robot Motion Planning
Authors Yu Shun Hsiao, Siva Kumar Sastry Hari, Balakumar Sundaralingam, Jason Yik, Thierry Tambe, Charbel Sakr, Stephen W. Keckler, Vijay Janapa Reddi
高维运动生成需要数值精度才能实现平滑、无碰撞的解决方案。通常，使用双精度或单精度浮点 FP 格式。将它们用于大张量会给设备提供的内存带宽带来压力，并改变内存占用空间，从而限制了它们对移动机器人所需的低功耗边缘设备的适用性。统一应用降低的精度可能是有利的，但会严重降低解决方案的质量。对重要的张量使用降低精度的数据类型，我们建议通过消除内存瓶颈来加速运动生成。我们提出了可变精度 VaPr 搜索优化，以便从张量中约 400 万个 FP 数据类型的唯一组合的巨大搜索空间中确定大张量的适当精度。为了获得效率提升，我们利用现有平台支持开箱即用的 GPU 加速，并评估当前不支持的 GPU 类型的预期精度转换器单元。我们在 8 个环境的 MotionBenchmaker 数据集上对 Franka Panda 机器人的 800 个规划问题进行的实验结果表明，4 位 FP 格式足以满足运动生成堆栈中最大的张量集。

Saturation-Aware Angular Velocity Estimation: Extending the Robustness of SLAM to Aggressive Motions
Authors Simon Pierre Desch nes, Dominic Baril, Mat j Boxan, Johann Laconte, Philippe Gigu re, Fran ois Pomerleau
我们提出了一种新颖的角速度估计方法，以提高同时定位和建图 SLAM 算法针对剧烈运动引起的陀螺仪饱和的鲁棒性。现场机器人使机器人面临各种危险，包括陡峭的地形、山体滑坡和楼梯，如果机器人失去稳定性和翻倒，可能会出现大幅加速度和角速度。这些极端运动会使传感器测量饱和，尤其是陀螺仪，它们是第一个变得不起作用的传感器。虽然机器人的结构完整性面临风险，但 SLAM 框架的弹性通常很少被考虑。因此，即使机器人在物理上能够继续执行任务，其操作也会由于世界的损坏而受到影响。关于这个问题，我们提出了一种在翻滚引起的极端旋转期间使用加速度计来估计角速度的方法。我们表明，我们的方法在平移中将中位定位误差减少了 71.5，在旋转中将中位定位误差减少了 65.5，并且在收集的数据上将 SLAM 失败的数量减少了 73.3。我们还提出了翻滚诱导陀螺仪饱和 TIGS 数据集，该数据集由户外实验组成，记录激光雷达的运动，其角速度比其他可用数据集高四倍。

DiPPeR: Diffusion-based 2D Path Planner applied on Legged Robots
Authors Jianwei Liu, Maria Stamatopoulou, Dimitrios Kanoulas
在这项工作中，我们提出了 DiPPeR，一种新颖且快速的四足运动二维路径规划框架，利用扩散驱动技术。我们的贡献包括地图图像和相应端到端轨迹的可扩展数据集、用于移动机器人的图像条件扩散规划器以及使用 CNN 的训练推理管道。我们在几个迷宫以及 Boston Dynamic 的 Spot 和 Unitree 的 Go1 机器人的现实部署场景中验证了我们的方法。

Active Learning with Dual Model Predictive Path-Integral Control for Interaction-Aware Autonomous Highway On-ramp Merging
Authors Jacob Knaup, Jovin D sa, Behdad Chalaki, Tyler Naes, Hossein Nourkhiz Mahjoub, Ehsan Moradi Pari, Panagiotis Tsiotras
对于自动驾驶车辆来说，融入密集的高速公路交通是一项复杂的决策任务，其中车辆必须识别潜在的差距并与周围的人类驾驶员进行协调，每个人都可能表现出不同的驾驶行为。许多现有方法将其他驾驶员视为动态障碍，因此无法通过这种被动规划来捕获人类驾驶员的全部意图。在本文中，我们提出了一种基于模型预测路径积分控制的新型双控制框架来生成交互式轨迹。该框架采用贝叶斯推理方法来主动学习代理参数，即其他驱动程序模型参数。所提出的框架采用基于采样的方法，适合通过利用 GPU 进行实时实现。

Body-mounted MR-conditional Robot for Minimally Invasive Liver Intervention
Authors Zhefeng Huang, Anthony L. Gunderman, Samuel E. Wilcox, Saikat Sengupta, Aiming Lu, David Woodrum, Jay Shah, Yue Chen
MR 引导微波消融 MWA 已被证明可有效治疗小尺寸肿瘤的肝细胞癌 HCC，但由于针放置的速度和准确性，最先进的技术存在次优工作流程。本文提出了一种紧凑型身体安装的 MR 条件机器人，它可以在闭孔 MR 扫描仪中运行，以实现精确的针引导。该机器人平台由两个堆叠的笛卡尔 XY 平台组成，每个平台都有两个自由度，有助于针引导。该机器人由 3D 打印气动涡轮机和 MR 条件锥齿轮传动系统驱动。气动阀和控制机电一体化装置位于 MRI 控制室内，并通过气动传输线和光纤连接到机器人。自由空间实验表明，在插入深度为 80 毫米时，机器人辅助针插入误差为 2.6 pm 1.3 毫米。进行 MR 引导的模型研究是为了验证机器人的 MR 条件和瞄准性能。

Terrain-adaptive Central Pattern Generators with Reinforcement Learning for Hexapod Locomotion
Authors Qiyue Yang, Yue Gao, Shaoyuan Li
受生物运动生成的启发，中央模式发生器 CPG 经常用于腿式机器人运动控制，以产生具有低维控制信号的自然步态模式。然而，复杂地形的适应性和稳定性有限阻碍了其应用。针对这一问题，本文提出了一种地形自适应运动控制方法，将深度强化学习DRL框架融入到CPG中，其中CPG模型负责生成同步信号，提供基本的运动步态，同时集成DRL以增强适应性通过调整CPG映射函数的参数，使机器人适应不平坦的地形。

Multi-Robot Task Planning to Secure Human Group Progress
Authors Roland Godet ONERA and LAAS CNRS , Charles Lesire ONERA , Arthur Bit Monnot LAAS CNRS
近年来，自动驾驶车队的部署数量不断增加。

Energy-Aware Routing Algorithm for Mobile Ground-to-Air Charging
Authors Bill Cai, Fei Lu, Lifeng Zhou
我们研究了无人地面车辆 UGV 和无人飞行器 UAV 协作系统的能量约束规划问题。在 UGV 作为运送无人机的移动基地和为无人机充电的充电站的场景中，我们提出了一种新颖的能量约束路由问题。为了解决这个问题，我们设计了一种能量感知路由算法，旨在最大限度地减少两辆车能量限制下的总体任务持续时间。该算法首先解决旅行商问题 TSP 以生成导游。然后，它采用蒙特卡洛树搜索 MCTS 算法来细化行程并为两辆车生成路径。我们通过广泛的模拟和概念验证实验来评估我们算法的性能。

Visual Forecasting as a Mid-level Representation for Avoidance
Authors Hsuan Kung Yang, Tsung Chih Chiang, Ting Ru Liu, Chun Wei Huang, Jou Min Liu, Chun Yi Lee
动态物体环境中导航的挑战仍然是自主代理研究的中心问题。虽然预测方法很有希望，但它们对精确状态信息的依赖使得它们在现实世界中实施起来不太实用。这项研究将视觉预测作为一种创新的替代方案。通过引入直观的视觉线索，这种方法可以预测动态对象的未来轨迹，以改善代理感知并实现预期行动。我们的研究探索了两种不同的策略，通过视觉预测 1 个边界框序列和 2 个增强路径来传达预测信息。为了验证所提出的视觉预测策略，我们使用 Unity 引擎在模拟环境中启动评估，然后将这些评估扩展到现实世界场景，以评估实用性和有效性。

Octopus: Embodied Vision-Language Programmer from Environmental Feedback
Authors Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
大型视觉语言模型 VLM 在多模态感知和推理方面取得了实质性进展。此外，当无缝集成到实体代理中时，它标志着朝着创建能够精确制定计划和执行命令的自主和上下文感知系统迈出的关键一步。在本文中，我们介绍了 Octopus，这是一种新颖的 VLM，旨在熟练地破译代理的视觉和文本任务目标，并制定复杂的动作序列并生成可执行代码。我们的设计使代理能够熟练地处理各种任务，从模拟器中的日常琐事到复杂视频游戏中的复杂交互。 Octopus 通过利用 GPT 4 进行训练，以控制探索性代理在我们名为 OctoVerse 的实验环境中生成训练数据，即动作蓝图和相应的可执行代码。我们还收集反馈，以允许使用环境反馈 RLEF 增强强化学习的训练方案。通过一系列实验，我们阐明了 Octopus 的功能并呈现了令人信服的结果，并且所提出的 RLEF 结果证明可以改进代理的决策。

Discovering Fatigued Movements for Virtual Character Animation
Authors Noshaba Cheema, Rui Xu, Nam Hee Kim, Perttu H m l inen, Vladislav Golyanik, Marc Habermann, Christian Theobalt, Philipp Slusallek
近年来，虚拟角色动画和动作合成迅速发展，特别是通过广泛的动作捕捉数据集和机器学习的结合。剩下的挑战是交互式地模拟在执行长时间动作时疲劳的角色，这对于生成动画的真实感是必不可少的。然而，捕捉此类动作是有问题的，因为执行后空翻等疲劳变化直至精疲力竭的动作会增加捕捉成本和受伤风险。令人惊讶的是，关于忠实疲劳建模的研究很少。为了解决这个问题，我们提出了一种基于深度强化学习的方法，该方法在文献中首次为意识到累积疲劳的全身物理模拟代理生成控制策略。为此，我们首先利用生成对抗性模仿学习 GAIL 来学习该技能的专家策略其次，我们通过将基于耐力时间的生成的恒定扭矩范围限制为关节驱动中的非线性、状态和时间相关限制来学习疲劳策略使用三室控制器 3CC 型号的空间。

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models
Authors Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo
本文研究闭环任务规划，它是指生成一系列技能和计划以完成特定目标，同时根据实时观察调整计划的过程。最近，由于其卓越的性能和用户友好性，促使大型语言模型法学硕士迭代生成动作已成为一种流行的范例。然而，这种范式受到两个低效率的困扰：高令牌消耗和冗余纠错，这两者都阻碍了其大规模测试和应用程序的可扩展性。为了解决这些问题，我们提出了 Tree Planner，它将法学硕士的任务规划重新构建为三个不同的阶段：计划抽样、行动树构建和扎根决策。 Tree Planner 首先使用 LLM 在执行前对一组潜在计划进行采样，然后将它们聚合以形成操作树。最后，法学硕士在树上执行自上而下的决策过程，同时考虑实时环境信息。实验表明，Tree Planner 在保持高效率的同时实现了最先进的性能。通过将 LLM 查询分解为单个计划采样调用和多个接地决策调用，提示的相当一部分不太可能被重复使用。结果，与之前表现最佳的模型相比，代币消耗减少了 92.2。此外，通过根据需要在操作树上启用回溯，纠正过程变得更加灵活，导致错误纠正减少 40.5。

Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias
Authors Max Sobol Mark, Archit Sharma, Fahim Tajwar, Rafael Rafailov, Sergey Levine, Chelsea Finn
在线强化学习 RL 或微调过程中，策略需要乐观地探索新的状态和行为，特别是当先前的离线数据无法提供足够的状态覆盖范围时。然而，探索奖励可能会使学习的策略产生偏差，并且我们的实验发现，这种奖励的简单但标准的使用可能无法恢复高性能策略。同时，离线强化学习中的悲观训练使得能够从静态数据集中恢复高性能策略。我们能否利用离线强化学习从在线交互中恢复更好的策略我们做了一个简单的观察，即可以在所有具有悲观目标的交互数据上从头开始训练策略，从而将用于数据收集和评估的策略解耦。具体来说，我们提出离线再训练，这是我们用于强化学习 RL 的离线到在线到离线 OOO 框架中在线微调结束时的策略提取步骤。乐观的探索策略用于与环境交互，并且针对所有观察到的数据训练单独的悲观开发策略以进行评估。这种解耦可以减少在线互动内在奖励、评估策略中的首要偏见的任何偏差，并且可以允许在线互动期间有更多的探索行为，从而可以生成更好的数据用于开发。 OOO 是对几种离线到在线 RL 和在线 RL 方法的补充，在我们的微调实验中将其平均性能提高了 14 到 26，在 D4RL 基准测试中的多个环境中实现了最先进的性能，并将在线 RL 性能提高了 165在两个 OpenAI 健身房环境中。此外，OOO 可以对不完整的离线数据集进行微调，而先前的方法可能无法恢复性能策略。

Cross-Episodic Curriculum for Transformer Agents
Authors Lucy Xiaoyang Shi, Yunfan Jiang, Jake Grigsby, Linxi Jim Fan, Yuke Zhu
我们提出了一种新算法，跨情景课程 CEC，以提高 Transformer 智能体的学习效率和泛化能力。 CEC 的核心是将跨情节的体验置于 Transformer 的背景中，这构成了课程的基础。通过按顺序构建在线学习试验和混合质量演示，CEC 构建的课程囊括了学习进展和跨阶段的熟练程度提高。这种协同作用与 Transformer 模型强大的模式识别能力相结合，提供了强大的跨情景注意力机制。 CEC 的有效性在两种代表性场景下得到证明，一种涉及具有离散控制的多任务强化学习，例如在 DeepMind 实验室中，其中课程捕获个人和逐渐复杂的环境中的学习进度，另一种涉及使用混合质量数据的模仿学习用于持续控制，如 RoboMimic 中所示，其中课程捕捉了演示者专业知识的提高。在所有情况下，CEC 产生的策略都表现出卓越的性能和很强的通用性。

Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles
Authors Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Ziran Wang
以人为本的设计和人工智能功能的融合为下一代自动驾驶汽车开辟了超越交通的新可能性。这些车辆可以与乘客动态互动并适应他们的喜好。本文提出了一种新颖的框架，利用大型语言模型法学硕士来增强自动驾驶汽车的决策过程。通过利用专业工具来利用法学硕士的语言和上下文理解能力，我们的目标是将法学硕士的语言和推理能力集成到自动驾驶汽车中。我们的研究包括在 HighwayEnv（自动驾驶和战术决策任务的环境集合）中进行实验，以探索法学硕士在各种场景中的解释、交互和推理。我们还研究了实时个性化，展示了法学硕士如何根据口头命令影响驾驶行为。我们的实证结果强调了利用思维提示链的巨大优势，可以改善驾驶决策，并显示法学硕士通过持续的口头反馈增强个性化驾驶体验的潜力。拟议的框架旨在改变自动驾驶汽车的运营，提供个性化支持、透明决策和持续学习，以提高安全性和有效性。

Reinforcement Learning of Display Transfer Robots in Glass Flow Control Systems: A Physical Simulation-Based Approach
Authors Hwajong Lee, Chan Kim, Seong Woo Kim
流量控制系统是提高制造系统生产能力的关键概念。为了解决与流程控制相关的调度优化问题以提高生产率，现有方法依赖于领域人类专家的启发式设计。因此，这些方法需要使用真实设备进行校正、监测和验证。随着系统设计复杂性的增加，监控时间也会增加，从而降低了达到最佳设计的可能性。作为流量控制系统启发式设计的替代方法，人们已经考虑使用深度强化学习来解决调度优化问题。尽管现有的强化学习研究在某些领域取得了优异的表现，但其成果对于实际FAB（例如显示器和半导体制造工艺）的适用性目前还不明显。为此，我们提出了一种实现物理模拟环境的方法，并通过强化学习在显示器制造中使用传送机器人设计可行的流程控制系统设计。我们提出了一种模型和参数设置来为不同的显示器传输机器人构建虚拟环境，以及在该环境上进行强化学习的训练方法，以获得玻璃流量控制系统的最优调度。

RoboCLIP: One Demonstration is Enough to Learn Robot Policies
Authors Sumedh A Sontakke, Jesse Zhang, S bastien M. R. Arnold, Karl Pertsch, Erdem B y k, Dorsa Sadigh, Chelsea Finn, Laurent Itti
奖励指定是强化学习中众所周知的难题，需要广泛的专家监督来设计稳健的奖励函数。模仿学习 IL 方法试图通过利用专家演示来规避这些问题，但通常需要大量的领域内专家演示。受视频和语言模型 VLM 领域进步的启发，我们推出了 RoboCLIP，这是一种在线模仿学习方法，该方法使用单个演示以视频演示或任务文本描述的形式克服大数据要求，无需生成奖励即可生成奖励。手动奖励函数设计。此外，RoboCLIP 还可以利用域外演示，例如人类解决奖励生成任务的视频，从而避免需要相同的演示和部署域。 RoboCLIP 利用预先训练的 VLM，无需任何微调即可生成奖励。

LangNav: Language as a Perceptual Representation for Navigation
Authors Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
我们探索使用语言作为视觉和语言导航的感知表示。我们的方法使用现成的视觉系统进行图像字幕和对象检测，将代理在每个时间步骤的以自我为中心的全景视图转换为自然语言描述。然后，我们对预训练的语言模型进行微调，以根据当前视图和轨迹历史记录来选择最能满足导航指令的操作。与采用预训练语言模型直接使用预训练视觉模型中的连续视觉特征的标准设置相反，我们的方法使用离散语言作为感知表示。我们在 R2R 视觉和语言导航基准上探索了基于语言的导航 LangNav 方法的两个用例，从提示的大语言模型 GPT 4 生成合成轨迹，用它来微调较小的语言模型并模拟到真实的迁移，其中我们迁移了学习到的策略在模拟环境 ALFRED 到真实环境 R2R 上。

CRITERIA: a New Benchmarking Paradigm for Evaluating Trajectory Prediction Models for Autonomous Driving
Authors Changhe Chen, Mozhgan Pourkeshavarz, Amir Rasouli
基准测试是评估自动驾驶轨迹预测模型的常用方法。现有的基准依赖于数据集，这些数据集偏向于更常见的场景，例如巡航，以及通过对所有场景求平均值来计算的基于距离的指标。遵循这样的军团可以让我们对模型的属性有一些了解，包括它们处理不同场景的能力以及它们的输出的可接受性和多样性。

Implementation of Fuzzy Control Algorithm in Two-Wheeled Differential Drive Platform
Authors Guoyi Chen
在单独的专用芯片上设计和开发人工智能控制器具有许多优点。本报告回顾了实时模糊逻辑控制器的开发，该控制器用于使用 Arduino Uno 板优化两轮差动驱动平台的运动控制。

Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples
Authors Hao Sun, Alihan H y k, Daniel Jarrett, Mihaela van der Schaar
在决策系统中使用离线数据学习透明、可解释的控制器是一个重要的研究领域，因为它有可能降低现实世界系统中应用的风险。然而，在医疗保健等责任敏感的环境中，决策问责制至关重要，但文献尚未充分解决。本文介绍了负责任的离线控制器 AOC，它使用离线数据集作为决策语料库，并根据定制的示例选择（称为语料库子集）执行负责任的控制。 ABC在低数据场景下有效运行，可以扩展到严格的离线模仿环境，并表现出守恒性和适应性的品质。

Solving Two-Player General-Sum Games Between Swarms
Authors Mukesh Ghimire, Lei Zhang, Wenlong Zhang, Yi Ren, Zhe Xu
Hamilton Jacobi Isaacs HJI PDE 是二人总和博弈的控制方程。与强化学习 RL 方法（用于学习价值函数的数据密集型方法）不同，学习 HJ PDE 可以保证收敛到游戏的纳什均衡值（如果存在）。然而，需要注意的是，当状态维数增加时，求解 HJ 偏微分方程会变得棘手。为了规避维度 CoD 的诅咒，可以使用具有监督的物理通知机器学习方法，并且已被证明可以有效地在两个玩家一般和博弈中生成均衡策略。在这项工作中，我们将代理级二级玩家游戏的现有工作扩展到两人群体级游戏，其中两个子群玩一般和游戏。我们将 textit Kolmogorov 前向方程视为群体密度演化的动态模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com