【AI视野·今日Robot 机器人论文速览第五十六期】Tue, 17 Oct 2023_navigation with large language models: semantic gu-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133915657

AI视野·今日CS.Robotics 机器人学论文速览
Tue, 17 Oct 2023
Totally 60 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Interactive Task Planning with Language Models
Authors Boyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik
交互式机器人框架可以完成长期任务规划，并且即使在执行过程中也可以轻松推广到新目标或不同任务。然而，大多数传统方法需要预定义的模块设计，这使得很难推广到不同的目标。最近基于大型语言模型的方法可以允许更开放的规划，但通常需要大量的提示工程或特定领域的预训练模型。为了解决这个问题，我们提出了一个简单的框架，可以通过语言模型实现交互式任务规划。我们的系统通过语言结合了高层规划和低层功能执行。我们验证了我们的系统在为看不见的目标生成新颖的高级指令方面的稳健性，以及通过仅替换任务指南来轻松适应不同任务的能力，而不需要额外的复杂提示工程。此外，当用户发送新请求时，我们的系统能够根据新请求、任务指南和之前执行的步骤精确地重新计划。

Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models
Authors Kevin Black, Mitsuhiko Nakamoto, Pranav Atreya, Homer Walke, Chelsea Finn, Aviral Kumar, Sergey Levine
如果通用机器人要在真正的非结构化环境中运行，它们需要能够识别和推理新的物体和场景。这些物体和场景可能不存在于机器人自己的训练数据中。我们提出了 SuSIE，一种利用图像编辑扩散模型通过提出低级控制器可以完成的中间子目标来充当高级规划器的方法。具体来说，我们对视频数据（包括人类视频和机器人展示）微调 InstructPix2Pix，以便在给定机器人当前观察和语言命令的情况下输出假设的未来子目标观察。我们还使用机器人数据来训练低级目标条件策略，以充当上述低级控制器。我们发现高级子目标预测可以利用互联网规模的预训练和视觉理解来指导低级目标条件策略，比传统的语言条件策略实现明显更好的泛化和精确度。我们在 CALVIN 基准上取得了最先进的结果，并且还展示了对现实世界操作任务的强大概括，击败了能够访问特权信息或利用更多数量级的计算和训练数据的强大基线。

Bayesian Filtering for Homography Estimation
Authors Arturo Del Castillo Bernal, Philippe Decoste, James Richard Forbes
本文考虑使用速率陀螺仪和相机测量在贝叶斯过滤框架中进行单应性估计。使用速率陀螺仪测量有助于在存在遮挡的情况下更可靠地估计单应性，而贝叶斯滤波方法既生成单应性估计又产生不确定性。不确定性信息为自适应过滤方法、后处理程序和安全协议打开了大门。具体地，本文使用模拟数据集和实验数据集来测试迭代扩展卡尔曼滤波器和交互多模型IMM滤波器。

BayRnTune: Adaptive Bayesian Domain Randomization via Strategic Fine-tuning
Authors Tianle Huang, Nitish Sontakke, K. Niranjan Kumar, Irfan Essa, Stefanos Nikolaidis, Dennis W. Hong, Sehoon Ha
域随机化 DR 需要使用随机动态来训练策略，已被证明是一种简单而有效的算法，可以减少模拟与现实世界之间的差距。然而，DR 通常需要仔细调整随机化参数。贝叶斯域随机化贝叶斯 DR 和主动域随机化自适应 DR 等方法通过使用现实世界经验自动选择参数范围来解决此问题。虽然有效，但这些算法通常需要很长的计算时间，因为每次迭代都会从头开始训练新策略。在这项工作中，我们提出了通过策略微调 BayRnTune 进行自适应贝叶斯域随机化，它继承了 BayRn 的精神，但旨在通过对先前学习的策略进行微调来显着加速学习过程。这个想法引出了一个关键问题，在微调过程中我们应该使用哪个先前的策略作为先验。我们研究了四种不同的微调策略，并将它们与五个模拟环境中的基线算法进行比较，从简单的基准任务到更复杂的有腿机器人环境。

Revisiting multi-GNSS Navigation for UAVs -- An Equivariant Filtering Approach
Authors Martin Scheiber, Alessandro Fornasier, Christian Brommer, Stephan Weiss
在这项工作中，我们探索了惯性导航系统等变滤波的最新进展，以改进无人驾驶飞行器无人机的状态估计。传统的最先进估计方法，例如乘法卡尔曼滤波器 MEKF，在一致性、初始状态估计误差和收敛性能方面存在一些局限性。基于对称性的方法（例如等变滤波器 EqF ）通过利用系统对称性的数学特性，为这些点提供了显着的优势。这些滤波器通过其误差定义产生更快的收敛速度和对错误初始状态估计的鲁棒性。为了演示 EqF 的可用性，我们重点关注户外机器人全球导航卫星系统 GNSS 传感器和惯性测量单元 IMU 中最常见传感器的传感器融合问题。我们提供了这样一个 EqF 的实现，利用对称群的半直积来推导滤波器方程。为了验证 EqF 在现实场景中的实际可用性，我们使用来自 INSANE 数据集所有户外运行的数据来评估我们的方法。

Temporally Robust Multi-Agent STL Motion Planning in Continuous Time
Authors Joris Verhagen, Lars Lindemann, Jana Tumova
信号时态逻辑 STL 是一种针对连续时间信号（例如多智能体系统的轨迹）的形式语言，它允许指定复杂的空间和时间系统要求，例如在特定时间间隔内彼此保持足够接近。为了提高具有如此复杂要求的多智能体运动规划的鲁棒性，我们考虑运动规划，其目标是最大化其联合 STL 规范的时间鲁棒性，即最大化每个智能体轨迹的允许时间偏移，同时仍然满足 STL 规范。以前的方法提出了离散时间混合整数线性规划 MILP 优化方案中的时间鲁棒运动规划和控制。相比之下，我们通过连续的 B zier 曲线对轨迹进行参数化，其中轨迹的曲率和时间遍历是单独参数化的。我们展示了一种生成连续时间鲁棒轨迹的算法，并证明了我们方法的合理性。

A perching and tilting aerial robot for precise and versatile power tool work on vertical walls
Authors Roman Dautzenberg, Timo K ster, Timon Mathis, Yann Roth, Curdin Steinauer, Gabriel K ppeli, Julian Santen, Alina Arranhado, Friederike Biffar, Till K tter, Christian Lanegger, Mike Allenspach, Roland Siegwart, Rik B hnemann
在垂直墙上钻孔、打磨和安装锚栓是日常建筑工作的基本过程。手动完成这些工作很容易出错，有潜在危险，而且高度复杂。如今，重型移动地面机器人可以执行自动电动工具工作。然而，飞行器可以部署在无法穿越的环境中并到达难以到达的地方。现有的无人机设计无法提供使用电动工具所需的大力量、有效载荷和高精度。这项工作提出了第一个空中机器人设计，可以在垂直混凝土墙上执行多功能操纵任务，连续力高达 150 N。该平台结合了带有主动吸盘的四旋翼飞行器和轻型可倾斜线性工具台。这种组合使用推进系统在操纵过程中进行飞行、表面对准和进给，从而最大限度地减少重量，并允许电动工具的精确定位。我们在混凝土钻孔应用中评估我们的设计，这是一个具有挑战性的施工过程，需要高力、准确性和精度。在 30 次试验中，我们的设计可以准确地确定目标位置，尽管栖息不精确。九次视觉引导钻孔实验表明，无需进一步自动化即可实现 6 毫米的钻孔精度。

Efficient Sim-to-real Transfer of Contact-Rich Manipulation Skills with Online Admittance Residual Learning
Authors Xiang Zhang, Changhao Wang, Lingfeng Sun, Zheng Wu, Xinghao Zhu, Masayoshi Tomizuka
学习接触丰富的操控技巧至关重要。这些技能要求机器人以可行的操纵轨迹和合适的合规控制参数与环境进行交互，以实现安全稳定的接触。然而，由于现实世界中的数据效率低下以及模拟与真实的差距，学习这些技能具有挑战性。在本文中，我们介绍了一种混合离线在线框架来学习强大的操作技能。我们在离线阶段采用无模型强化学习，以获得具有域随机化的模拟 RV 中的机器人运动和柔量控制参数。随后，在在线阶段，我们通过力传感器实时测量来了解柔顺控制参数的残差，以最大限度地提高机器人性能相关标准。

Adaptive Robot Assistance: Expertise and Influence in Multi-User Task Planning
Authors Abhinav Dahiya, Stephen L. Smith
本文解决了使单个机器人能够有效协助多人进行任务规划领域决策的挑战。我们引入了一个综合框架，旨在通过考虑做出最佳决策的人类专业知识和机器人对人类决策的影响来提高整体团队绩效。我们的模型将这些因素无缝地集成到任务规划领域中，将问题表述为部分可观察的马尔可夫决策过程 POMDP，同时将专业知识和影响力视为系统状态的不可观察组件。为了解决此类系统中机器人的动作，我们提出了一种有效的注意力切换策略。该策略利用此类系统的固有结构，解决多个较小的 POMDP，以生成启发式算法来优先考虑与不同人类队友的交互，从而减少状态空间并提高可扩展性。我们对模拟套件履行任务的实证结果表明，当机器人的策略考虑到专业知识和影响力时，团队绩效会得到改善。

ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse Quadruped Robots
Authors Milad Shafiee, Guillaume Bellegarda, Auke Ijspeert
学习四足机器人的运动策略传统上仅限于特定的机器人形态、质量和尺寸。通常必须对每个新机器人重复学习过程，其中必须重新调整超参数和奖励函数权重，以最大限度地提高每个新系统的性能。或者，尝试训练单一策略来适应不同的机器人尺寸，同时保持相同的自由度和形态，需要复杂的学习框架，或者质量、惯性和尺寸随机化，这会导致训练周期延长。在我们的研究中，我们表明，从动物运动控制中汲取灵感，使我们能够有效地训练能够控制各种四足机器人的单一运动策略。这些差异包括可变数量的自由度（即 12 或 16 个关节）、三种不同的形态、从 2 kg 到 200 kg 的广泛质量范围以及从 16 cm 到 100 cm 的标称站立高度。我们的策略调制脊髓中中央模式生成器 CPG 的表示，有效协调 CPG 的频率和幅度以产生有节奏的输出 Rhythm Generation ，然后将其映射到模式形成 PF 层。在不同的机器人中，唯一变化的组件是 PF 层，它调整步幅高度和长度的缩放参数。随后，我们通过在 Unitree Go1 和 A1 机器人上测试单一策略来评估模拟到真实传输的情况。

BEVGPT: Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning
Authors Pengqin Wang, Meixin Zhu, Hongliang Lu, Hui Zhong, Xianda Chen, Shaojie Shen, Xuesong Wang, Yinhai Wang
预测、决策和运动规划对于自动驾驶至关重要。在大多数当代作品中，它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而，我们认为它们应该被整合到一个综合框架中。尽管最近的几种方法遵循这种方案，但它们都受到复杂的输入表示和冗余框架设计的困扰。更重要的是，他们无法对未来的驾驶场景做出长期预测。为了解决这些问题，我们重新思考自动驾驶任务中各个模块的必要性，并仅将所需的模块纳入到极简的自动驾驶框架中。我们提出了 BEVGPT，这是一种生成式预训练大型模型，集成了驾驶场景预测、决策和运动规划。该模型以鸟瞰BEV图像作为唯一输入源，并根据周围的交通场景做出驾驶决策。为了确保驾驶轨迹的可行性和平滑性，我们开发了一种基于优化的运动规划方法。我们在 Lyft Level 5 数据集上实例化 BEVGPT，并使用 Woven Planet L5Kit 进行真实驾驶模拟。所提出的框架的有效性和鲁棒性得到了验证，它在 100 个决策指标和 66 个运动规划指标上优于以前的方法。此外，我们的框架长期准确生成 BEV 图像的能力通过驾驶场景预测任务得到了证明。

Learning visual-based deformable object rearrangement with local graph neural networks
Authors Yuhong Deng, Xueqian Wang, Lipeng chen
可变形物体的目标条件重排，例如拉直绳子和折叠布料是最常见的可变形操纵任务之一，其中机器人需要仅通过视觉观察将可变形物体重新排列成规定的目标配置。这些任务通常面临两个主要挑战：可变形配置空间的高维性以及可变形动力学固有的潜在复杂性、非线性和不确定性。为了解决这些挑战，我们提出了一种新颖的表示策略，可以通过一组关键点及其交互有效地对可变形对象状态进行建模。我们进一步提出局部图神经网络 GNN，这是一种轻型局部 GNN，学习联合建模可变形重排动力学并推断最佳操纵动作，例如通过构建和更新两个动态图来拾取和放置。模拟和真实实验都表明，所提出的动态图表示在建模可变形重排动力学方面显示出卓越的表现力。我们的方法在各种可变形重排任务上的成功率平均比模拟实验中最先进的方法高得多，为 96.3。此外，我们的方法比最先进的方法更轻，推理时间短 60。

Autonomous Mapping and Navigation using Fiducial Markers and Pan-Tilt Camera for Assisting Indoor Mobility of Blind and Visually Impaired People
Authors Dharmateja Adapa, Virendra Singh Shekhawat, Avinash Gautam, Sudeept Mohan
大型室内空间布局复杂，难以导航。医院、大学、购物中心等室内空间以文本和符号的形式承载多模态信息。因此，英属维尔京群岛的盲人和视障人士很难独立导航这样的空间。室内环境通常无法使用 GPS，因此使用基于蓝牙、基于 WiFi 或基于范围的方法进行定位。这些方法的设置成本较高，精度较低，有时需要特殊的传感设备。我们提出了一种视觉辅助 VA 系统，用于使用视觉基准标记进行定位的 BVI 个人室内导航。使用基准标记进行视觉定位的最先进的 SOTA 方法使用具有狭窄视场的固定摄像机。当标记离开视线时，这些方法就会停止跟踪它们。我们采用安装在云台转塔上的摄像机，将视野增强至 360 度，以增强标记跟踪。因此，我们需要更少的标记来进行绘图和导航。所提出的 VA 系统的功效通过三个指标来衡量，即 RMSE 均方根误差、ADNN 到最近邻居的平均距离和 ATE 绝对轨迹误差。我们的系统优于 Hector SLAM、ORB SLAM3 和 UcoSLAM。

Moving Object Localization based on the Fusion of Ultra-WideBand and LiDAR with a Mobile Robot
Authors Muhammad Shalihan, Zhiqiang Cao, Khattiya Pongsirijinda, Lin Guo, Billy Pik Lik Lau, Ran Liu, Chau Yuen, U Xuan Tan
对象的定位对于机器人对象交互至关重要。光探测和测距 LiDAR 在机器人领域的应用是一种新兴且广泛使用的物体定位技术，因为它具有精确的距离测量、长距离、宽视场以及在不同条件下的鲁棒性。然而，当物体被障碍物遮挡时，激光雷达无法识别物体，导致定位不准确且存在噪声。为了解决这个问题，我们提出了一种结合 LiDAR 和超宽带 UWB 测距进行物体定位的方法。 UWB 由于重量轻、功耗低，在传感器融合定位算法中很受欢迎。此外，即使物体不在视线范围内，UWB 也能够返回测距测量结果。我们的方法提供了一种有效的解决方案，将匿名光学传感器 LiDAR 与基于身份的无线电传感器 UWB 相结合，以提高物体的定位精度。我们的方法由三个模块组成。第一个模块是物体识别算法，它比较激光雷达的连续扫描，以检测环境中的移动物体，并将距离最近的位置返回给 UWB 测距。第二个模块使用我们的对象识别模块的先前和当前估计位置来估计移动对象的移动方向。它通过异常值拒绝标准消除可疑估计。最后，我们在位姿图优化 PGO 中融合 LiDAR、UWB 测距和里程测量，以恢复机器人和物体的整个轨迹。

RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models
Authors Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
机器人视觉应用通常需要广泛的视觉感知任务，例如对象检测、分割和识别。虽然这些单独的任务已经取得了实质性进展，但将专门的模型集成到统一的视觉管道中却带来了巨大的工程挑战和成本。最近，多模态大型语言模型 MLLM 已成为各种下游任务的新型支柱。我们认为，利用 MLLM 的预训练功能可以创建简化的框架，从而减少对特定任务编码器的需求。具体来说，MLLM 中的大规模预训练知识可以更轻松地对下游机器人视觉任务进行微调，并产生卓越的性能。我们引入了配备 BEiT 3 主干的 RoboLLM 框架，以解决 ARMBench 挑战中的所有视觉感知任务，该挑战是关于现实世界仓库场景的大规模机器人操作数据集。 RoboLLM 不仅优于现有基线，而且还大大减少了与模型选择和调整相关的工程负担。

Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning
Authors Dhruv Shah, Michael Equi, Blazej Osinski, Fei Xia, Brian Ichter, Sergey Levine
在不熟悉的环境中导航对机器人来说是一个重大挑战，而地图和规划技术可以用来构建世界的表征，在不熟悉的环境中快速发现通往期望目标的路径，使用这种方法通常需要漫长的地图和探索。人类可以通过利用语义快速导航新环境，特别是逻辑布局的室内环境，例如厨房通常毗邻客厅，出口标志指示出路等。语言模型可以为机器人提供此类知识，但直接使用语言模型来指导机器人如何到达某个目的地也是不切实际的，而语言模型可能会产生有关如何到达某个目标的叙述，因为它们不是基于现实世界的观察，这种叙述可能是任意错误的。因此，在本文中，我们研究如何利用语言模型产生的语义猜测作为规划算法的指导启发。我们的方法，语言前沿指南 LFG，通过将存储在语言模型中的语义知识作为拓扑或度量地图规划的搜索启发式，使用语言模型来偏向对新颖的现实世界环境的探索。

A Human Motion Compensation Framework for a Supernumerary Robotic Arm
Authors Xin Zhang 1, 2 and 3 , Pietro Balatti 3 , Mattia Leonori 3 , Arash Ajoudani 3 1 State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang, China 2 Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang, China 3 Human Robot Interfaces and Interaction Lab, Istituto Italiano di Tecnologia, Genoa, Italy
多余的机械臂 SRA 可用作第三臂，以补充和增强人类用户的能力。携带 SRA 的用户形成一个连接的动力链，可以将其视为一类特殊的浮动底座机器人系统。然而，与一般浮基机器人系统不同，人类用户是SRA的基础，他们有自己的主观行为和运动。这意味着人体运动可能会无意中影响 SRA 末端执行器的运动。为了应对这一挑战，我们提出了一个框架来补偿干扰 SRA 末端执行器轨迹的人体全身运动。本研究中的 SRA 系统由 6 自由度轻型手臂和可穿戴接口组成。可穿戴接口允许用户调整SRA的安装位置以适应不同的体型。基于惯性测量单元IMU的传感接口可以实时提供人类用户的身体骨骼运动反馈。通过简化浮基运动学模型，我们通过重构 SRA 的雅可比矩阵来设计有效的运动规划器。

3D-BBS: Global Localization for 3D Point Cloud Scan Matching Using Branch-and-Bound Algorithm
Authors Koki Aoki, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno, Junichi Meguro
本文提出了一种准确快速的 3D 全局定位方法 3D BBS，该方法扩展了现有的基于分支定界 BnB 的 2D 扫描匹配 BBS 算法。为了减少内存消耗，我们利用稀疏哈希表来存储分层 3D 体素图。为了提高 3D 空间中 BBS 的处理成本，我们提出了一种高效的 roto 平移空间分支和最佳优先搜索策略。此外，我们设计了一种批处理 BnB 算法来充分利用 GPU 并行处理。通过模拟和真实环境中的实验，我们证明了 3D BBS 只需 3D LiDAR 扫描和 3D 预建地图即可实现精确的全球定位。

Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance
Authors Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao Hua Sun, Joseph J. Lim
我们提出了 BOSS，一种通过在最少的监督下发展学习技能库来自动学习解决新的长期、复杂和有意义的任务的方法。强化学习的先前工作需要专家监督，以演示或丰富的奖励函数的形式来学习长期任务。相反，我们的方法 BOSS BOotStrapping your own Skills 通过执行技能引导来学习完成新任务，其中具有一组原始技能的代理与环境交互以练习新技能，而不会收到初始技能集之外的任务的奖励反馈。这个引导阶段由大型语言模型 LLM 指导，这些模型告知代理将有意义的技能链接在一起。通过这个过程，BOSS从一组基本的原始技能中构建了广泛的复杂且有用的行为。我们通过在现实家庭环境中的实验证明，在新环境中零次执行看不见的长期任务时，使用 LLM 引导引导程序训练的智能体优于使用朴素引导以及先前无监督技能获取方法训练的智能体。

Socially Acceptable Bipedal Navigation: A Signal-Temporal-Logic- Driven Approach for Safe Locomotion
Authors Abdulaziz Shamsah, Ye Zhao
由于双足运动的高度复杂的非线性动力学，双足机器人的社交导航仍然相对未被探索。本研究对人类拥挤环境中双足机器人的社交导航进行了初步探索。我们提出了一种社会路径规划器，可确保双足机器人在社会规范下导航时的运动安全。所提出的规划器利用条件变分自动编码器架构，并从人群数据集中学习，以生成社会可接受的路径规划。机器人特定的运动安全性通过在学习过程中纳入信号时序逻辑规范来正式实施。

Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical Flow with Monocular Depth Completion Prior
Authors Xiaotong Chen, Zheming Zhou, Zhuo Deng, Omid Ghasemalizadeh, Min Sun, Cheng Hao Kuo, Arnie Sen
使用经济实惠的 RGB D 相机重建透明物体是机器人感知中的一个持续挑战，因为 RGB 域中视图之间的外观不一致以及每个视图中的深度读数不准确。我们引入了一个两阶段管道，用于重建专为移动平台定制的透明对象。在第一阶段，利用现成的单目对象分割和深度完成网络来预测透明对象的深度，提供先验的单视图形状。随后，我们提出对极引导光流 EOF，将第一阶段的几个单视图形状先验融合到交叉视图一致的 3D 重建（给定从场景的不透明部分估计的相机姿势）。我们的关键创新在于 EOF，它在光流中采用边界敏感采样和对极线约束，以在透明物体的多个视图之间准确建立 2D 对应关系。

Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning
Authors Chahyon Ku 1 , Carl Winge 1 , Ryan Diaz 1 , Wentao Yuan 2 , Karthik Desingh 1 1 University of Minnesota, 2 University of Washington
本文主要关注在对象组装任务的背景下评估和基准化视觉表示的鲁棒性。具体来说，它研究具有几何挤压和侵入的对象的对齐和插入，通常称为孔中钉任务。在 SE 3 空间中检测和定位销钉和孔几何形状以实现成功组装所需的精度提出了重大挑战。为了解决这个问题，我们在视觉运动策略学习中采用了一个通用框架，该框架利用视觉预训练模型作为视觉编码器。我们的研究调查了该框架应用于双臂操作设置（特别是抓取变化）时的稳健性。我们的定量分析表明，现有的预训练模型无法捕获此任务所需的基本视觉特征。然而，从头开始训练的视觉编码器始终优于冻结的预训练模型。此外，我们讨论了旋转表示和相关的损失函数，它们可以显着改善策略学习。我们提出了一种新颖的任务场景，旨在评估视觉运动政策学习的进展，特别注重提高需要几何和空间推理的复杂组装任务的稳健性。

Socially reactive navigation models for mobile robots in dynamic environments
Authors Ricarte Ribeiro, Plinio Moreno
这项工作的目的是扩展以前的工作，考虑机器人导航和交互中社会可接受的行为，并允许机器人密切接近静态和动态的个体或群体。本论文开发的空间模型是适应性的，即能够随着时间的推移而变化，以适应社会环境中经常存在的不断变化的情况。空间模型参数自适应的最终目标是实现人类和机器人之间的密切交互，因此不仅能够考虑群体的排列，而且能够考虑机器人本身的基本特征。这项工作还进一步开发了一种现有的姿态估计算法，以便通过考虑人类的基本敏感性，更好地保证参与交互的人类的安全性和舒适性。通过使用 costmap2d 和 move 基础包将算法集成到 ROS 导航系统中。通过使用数据集与以前的算法进行比较评估来测试空间模型的适应性。然后通过静态和动态模拟以及现实生活中的静态情况对整个导航系统进行评估。

Self-Sustained And Coordinated Rhythmic Deformations With SMA For Controller-Free Locomotion
Authors Ziyang Zhou, Suyi Li
本研究提出了一种模块化、无电子设备、完全板载控制和驱动方法，用于基于 SMA 的软机器人来实现运动任务。这种方法利用柔顺曲梁的非线性力学和精心设计的机械控制电路来创建和同步有节奏的变形周期，模仿动物运动中普遍存在的中央模式发生器 CPG。更具体地说，该研究阐明了一种新策略，通过将形状记忆线圈致动器耦合到精心设计的单稳定曲线梁（具有快速屈曲行为）来增强形状记忆线圈致动器的致动性能。这种 SMA 曲梁组件与具有滑块机构的全机械电路集成。该电路可以根据SMA的形变状态自动切断和供给电流，利用简单的直流电源产生自持续的有节奏的形变周期。最后，本研究提出了一种新策略，协调同步两个机器人模块的两个节律变形周期，以实现高效的爬行运动，但仍使用单个直流电源。

Generalizable whole-body global manipulation of deformable linear objects by dual-arm robot in 3-D constrained environments
Authors Mingrui Yu, Kangchen Lv, Changhao Wang, Yongpeng Jiang, Masayoshi Tomizuka, Xiang Li
约束环境在操纵可变形线性物体 DLO 的实际应用中很常见，其中 DLO 和机器人的运动都应受到约束。由于 DLO 的高度变形、高自由度的双臂机器人以及 3D 复杂环境，该任务是高维且高度受限的，这使得全局规划具有挑战性。此外，由于其强非线性和多样性，规划所需的精确DLO模型往往无法获得，从而导致规划路径不可靠。本文重点介绍双臂机器人在受限环境中对 DLO 进行全局移动和塑造。主要目标是 1 高效、准确地完成此任务，2 实现对各种 DLO 的通用且稳健的操作。为此，我们提出了一个使用适当的 DLO 模型表示进行全身规划和控制的补充框架。首先，提出了一个全局规划器，基于简化的 DLO 能量模型有效地找到可行的解决方案，该模型考虑了完整的系统状态和所有约束来规划更可靠的路径。然后，提出了一种闭环操纵方案来补偿建模误差并提高鲁棒性和准确性，该方案结合了基于自适应 DLO 运动模型实时调整机器人运动的模型预测控制器。关键的新颖之处在于，我们的框架可以有效地解决受多重约束的高维问题，并推广到各种 DLO，而无需详细的模型识别。

Adaptive Contact-Implicit Model Predictive Control with Online Residual Learning
Authors Wei Cheng Huang, Alp Aydinoglu, Wanxin Jin, Michael Posa
由于与环境建立和断开接触，多接触机器人系统的混合性质给高质量控制带来了重大挑战。现有的基于模型的方法通常依赖于多接触模型的良好先验知识，或者需要大量的离线模型调整工作，从而导致适应性和鲁棒性较低。在本文中，我们提出了一种实时自适应多接触模型预测控制框架，该框架能够在线适应混合多接触模型并持续改进接触丰富任务的控制性能。该框架包括一个自适应模块和一个实时多接触 MPC 控制器，该模块不断学习混合模型的残差以最小化先前模型与现实之间的差距。我们在综合示例中证明了该框架的有效性，并将其应用在硬件上来解决接触丰富的操作任务，其中机器人使用其末端执行器在桌子上滚动不同的未知物体来跟踪给定的路径。

Active Perception using Neural Radiance Fields
Authors Siming He, Christopher D. Hsu, Dexter Ong, Yifei Simon Shao, Pratik Chaudhari
我们从第一原理研究主动感知，认为执行主动感知的自主代理应该最大化过去观察对未来观察所具有的相互信息。这样做需要一个总结过去观察结果的场景表示，以及更新该表示以合并新观察状态估计和映射的能力，b 合成场景新观察结果的能力，a 生成模型，以及 c 选择控制轨迹的能力。最大化预测信息规划。这激发了类似 NeRF 的神经辐射场表示，可以捕捉场景的光度、几何和语义属性。这种表示非常适合综合来自不同观点的新观察结果。因此，基于采样的规划器可用于计算沿着动态可行轨迹的综合观察的预测信息。我们使用主动感知来探索杂乱的室内环境，并采用语义不确定性的概念来检查探索任务是否成功完成。

Free as a Bird: Event-based Dynamic Sense-and-Avoid for Ornithopter Robot Flight
Authors J.P. Rodr guez G mez, R. Tapia, M.M. Guzm n, J.R. Mart nez de Dios, A. Ollero
扑翼机器人的自主飞行是机器人感知的一大挑战。以往的感知和回避工作大多研究了仅考虑静态障碍物的扑翼机器人避障问题。本文提出了一种使用事件摄像机的大型扑翼机的完全机载动态感知和规避方案。这些传感器由于场景中的照明变化（例如动态物体产生的照明变化）而触发像素信息。该方法在低成本硬件（例如小型飞行器上的硬件）中执行逐个事件处理。所提出的方案检测障碍物并评估与机器人身体可能发生的碰撞。机载控制器在水平和垂直尾翼偏转范围内致动以执行规避机动。该方案在室内和室外场景中使用不同形状和大小的障碍物进行了验证。

Reinforcement Learning for Reduced-order Models of Legged Robots
Authors Yu Ming Chen, Hien Bui, Michael Posa
基于模型的双足运动规划和控制方法有着悠久的成功历史。它可以在有效完成多项运动任务的同时，提供稳定性和安全保障。另一方面，由于计算的进步，无模型强化学习近年来越来越受欢迎。它可以在特定任务中实现高性能，但在为不同的任务集重新调整策略时缺乏物理可解释性和灵活性。例如，我们最初可以使用速度命令作为输入来训练神经网络 NN 策略。然而，为了处理新的任务命令，例如以所需的步行速度处理所需的手或脚步位置，我们必须重新训练新的神经网络策略。在这项工作中，我们试图在双足平台上弥合这两项工作之间的差距。我们制定了一个基于模型的强化学习问题，以在模型预测控制 MPC 中学习降阶模型 ROM。结果显示，可行任务区域大小提高了 49 倍，电机扭矩成本降低了 21 倍。

Overconstrained Robotic Limb with Energy-Efficient, Omni-directional Locomotion
Authors Ronghan Xu, Jiayi Yin, Shihao Feng, Bangchao Huang, Haoran Sun, Jia Pan, Fang Wan, Chaoyang Song
本文研究了一种新型四足动物的设计、建模和控制，该四足动物具有过度约束的机器人肢体，采用贝内特连杆进行运动和动力传输。模块化肢体设计使机器人能够变形为爬行动物或哺乳动物的形状。与普遍关注的平面肢体不同，这项研究深入研究了经典的过度约束连杆，它在高级运动学方面具有坚实的理论基础，但工程应用有限。该研究展示了过度约束的机器人肢体的形态优势，这些肢体可以转变为平面或球形肢体，举例说明了贝内特连杆机构。通过进行运动学和动态建模，我们应用模型预测控制来模拟一系列运动任务，结果表明，在考虑立足点距离时，在向前小跑、横向小跑和原地转弯等全方位任务中，过度约束的肢体优于平面设计。

Auto-LfD: Towards Closing the Loop for Learning from Demonstrations
Authors Shaokang Wu, Yijin Wang, Yanlong Huang
在过去的几年里，人们在提高机器人的泛化能力方面做了很多工作，其中从演示中学习LfD因其用户友好和数据高效的性质而备受关注。虽然已经报道了许多LfD解决方案，但一个关键问题还没有得到妥善解决，我们如何评估LfD的泛化性能例如，当机器人绘制一个需要经过新的期望点的字母时，它如何确保新的轨迹保持与演示相似的形状当新任务距离演示区域很远时，这个问题就变得更加相关。为了解决这个问题，用户经常求助于手动调整 LfD 方法的超参数，直到获得满意的轨迹。在本文中，我们的目标是为 LfD 提供闭环评估反馈并以自动方式优化 LfD。具体来说，我们以动态运动基元 DMP 和内核化运动基元 KMP 为例，并开发了一个通用优化框架，能够测量 DMP 和 KMP 的泛化性能，并在无需任何人工输入的情况下自动优化其超参数。

Decoding Modular Reconfigurable Robots: A Survey on Mechanisms and Design
Authors Guanqi Liang, Di Wu, Yuxiao Tu, Tin Lun Lam
模块化可重构机器人 MRR 固有的模块化性和可重构性赋予了多功能性、容错性和经济效率等优势，从而在不同的应用中展示了巨大的潜力。技术格局的不断演变和多样化概念设计的出现产生了多个 MRR 类别，每个类别都通过其各自的形态或功能特征进行描述，导致分类法存在一些模糊性。本文对从 1985 年成立到 2023 年的整个 MRR 硬件和设计进行了全面调查。本文介绍了一个用于理解 MRR 硬件的创新、统一的概念框架，其中包括连接器、执行器和同质性三个关键元素。通过利用这个三边框架，本文提供了对 MRR 硬件迭代的多样化范围的直观理解，同时系统地解读和分类整个范围，提供更结构化的视角。这项调查阐明了 MRR 的基本属性及其组成方面，提供了对其设计、技术、功能和分类的见解。

Assessing Smart Algorithms for Gait Phases Detection in Lower Limb Prosthesis: A Comprehensive Review
Authors Barath Kumar JK, Aswadh Khumar G S
在过去的几年中，步态阶段的划分已成为一个复杂的研究领域，对于步态技术领域的各种应用具有重要意义。步态阶段的准确划分在推进这些应用中起着至关重要的作用。研究人员一直在探索一系列传感器，这些传感器可用于为步态阶段划分所涉及的算法提供数据。这些传感器可大致分为可穿戴式和非可穿戴式两种类型，每种传感器都具有独特的优势和功能。在我们的研究中，旨在检查当前专门为动态康复系统实施而设计的步态分析和检测方法，我们对现有研究进行了全面的荟萃分析。我们的分析揭示了各种传感器和传感器组合，这些传感器和传感器组合展示了分析动态环境中步态模式的能力。这些传感器选项包括从基本的基于力的二进制开关到包含多个惯性传感器和复杂算法的更复杂的设置。研究结果强调了用于动态应用步态分析的广泛可用技术和方法。为了进行广泛的回顾，我们系统地检查了两个著名的数据库：IEEE 和 Scopus，目的是确定与步态分析相关的相关研究。搜索标准仅限于 1999 年至 2023 年间发表的 189 篇论文。从这个库中，我们确定并收录了 5 篇专门关注各种技术的论文，包括阈值、准静态方法、自适应分类器和基于 SVM 的方法。

Evaluating Intelligent Algorithms for Gait Phase Classification in Lower Limb Robotic Systems
Authors Barath Kumar JK, Aswadh Khumar G S
准确快速地检测步态阶段对于实现动力下肢假肢和外骨骼的最佳性能至关重要。随着这些机器人系统的多功能性和复杂性不断增加，增强步态检测算法性能的需求也越来越大。可靠且实用的步态检测算法的开发有可能提高假肢装置和其他康复技术的精度、稳定性和安全性。在这篇系统综述中，我们深入研究了步态事件检测方法领域的广泛研究和开发，特别关注其在假肢设备中的应用。我们的评论严格评估了各种提出的方法，旨在确定下肢机器人系统步态阶段分类的最有效方法。通过全面的比较分析，我们突出了不同算法的优缺点，揭示了它们的性能特征、适用性和进一步改进的潜力。这项综合审查是通过筛选两个数据库（即 IEEE 和 Scopus）进行的。此次检索仅限于 2010 年至 2023 年发表的 204 篇论文。共确定了 6 篇涉及启发式、阈值和幅度过零技术的论文，并将其纳入综述。实现的算法的 33.3 使用了运动学参数，例如关节角度、关节线速度和角速度以及关节角加速度。

Dynamic Gait Modelling of Lower Limb Dynamics : A Mathematical Approach
Authors Barath Kumar JK, Aswadh Khumar G S
本文重点分析人类步态周期动力学，并提出一个数学模型来确定整个步态周期（包括各个阶段）施加在下肢关节上的扭矩。该研究涉及一名健康受试者，他参加了一系列初始步行实验。准确代表人类下肢自然运动的数学模型的开发在下肢假肢设计领域引起了极大的关注。在这项研究中，研究人员整合了肢体关节和下肢末端执行器之间的功能关系。这些知识对于康复目的至关重要，因为它有助于理解有效控制执行器运动所需的关节、链接和整体身体方向的连接性。在分析身体活动时，人体力量的测量起着至关重要的作用。传统上，这些测量集中于确定单个关节角度和角速度下的最大自愿扭矩。

Enhancing Task Performance of Learned Simplified Models via Reinforcement Learning
Authors Hien Bui, Michael Posa
在接触丰富的任务中，接触动力学的混合、多模态性质给模型表示、规划和控制带来了巨大的挑战。最近的努力试图通过数据驱动方法、学习动态模型与模型预测控制相结合来解决这些挑战。这些方法虽然有效，但仅依赖于最大限度地减少前向预测误差，以期通过 MPC 控制器获得更好的任务性能。这种弱相关性可能会导致数据效率低下以及整体性能的限制。作为回应，我们提出了一种新颖的策略，使用策略梯度算法来找到可以显式最大化任务性能的简化动态模型。具体来说，我们将随机策略参数化为 MPC 控制器的扰动输出，因此，学习到的模型表示可以直接与策略或任务性能相关联。我们应用所提出的方法来接触丰富的任务，其中三指机器人手操纵以前未知的物体。与现有方法相比，我们的方法在操作不同对象时显着提高了高达 15 倍的任务成功率，同时保持了数据效率。我们的方法可以使用 30 分钟内的数据解决一些任务，成功率达到 70 或更高。

DentiBot: System Design and 6-DoF Hybrid Position/Force Control for Robot-Assisted Endodontic Treatment
Authors Hao Fang Cheng, Yi Ching Ho, Cheng Wei Chen
由于精细的牙科手术需要高精度，机器人技术在牙科领域越来越受欢迎。目前大多数牙科机器人都是为种植手术而设计的，可以帮助牙医将种植体准确地放置在所需的位置和深度。在本文中，我们介绍了 DentiBot，这是第一个专为牙髓治疗而设计的机器人。 DentiBot 配备了力和扭矩传感器以及基于绳子的患者跟踪模块，可以实时监控牙髓锉接触和患者移动。我们提出了一种 6 DoF 混合位置力控制器，能够自主调整手术路径并补偿患者运动，同时还提供防止牙髓锉断裂的保护。此外，还结合了锉刀灵活性模型来补偿锉刀弯曲。

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning
Authors Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He, Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang
基于即时的学习已被证明是一种引人注目的范式，有助于大型语言模型取得法学硕士的巨大成功。受法学硕士在语言任务中取得的成功的启发，现有的研究已利用法学硕士进行具体指令跟踪和任务规划。然而，对于具有多模式提示、将视觉信号与文本描述相结合的具体任务并没有给予太多关注。此类任务对机器人理解视觉和语言信号之间的互连和互补性的能力提出了重大挑战。在这项工作中，我们引入了一个有效的框架，该框架学习一种策略，通过多任务专家轨迹的多模式提示来执行机器人操作。我们的方法由执行逆动态预训练和多任务微调的两阶段训练管道组成。为了促进多模态理解，我们通过增强预训练的 LM 与视觉输入的剩余连接来设计多模态提示编码器，并对动作维度之间的依赖关系进行建模。根据经验，我们评估了我们的方法在 VIMA BENCH 上的功效，并建立了新的最先进的 10 成功率改进。

A Framework For Automated Dissection Along Tissue Boundary
Authors Ki Hwan Oh, Leonardo Borgioli, Milos Zefran, Liaohai Chen, Pier Cristoforo Giulianotti
与传统手术方法相比，机器人手术有望提高精度和适应性。它还提供了自动化手术干预的可能性，从而减轻了外科医生的压力，获得更好的手术效果并降低成本。胆囊切除术（胆囊切除术）因其胆囊和肝脏之间独特且对比鲜明的解剖特征以及标准化的手术操作而成为自动化的理想模型手术。解剖是胆囊切除术中经常使用的子任务，外科医生在钩子上传递能量以将胆囊与肝脏分离。因此，沿组织边界的解剖是手术自动化的良好候选者。为了让达芬奇手术机器人自动执行与外科医生相同的手术，它需要具有识别和区分两种不同组织的能力，例如：肝脏和胆囊，2 了解两个组织之间的边界位于 3D 工作空间中的位置，3 使用视觉反馈相对于 3D 空间中的边界定位仪器尖端，4 沿着边界移动仪器。本文提出了一种新颖的框架，通过人工智能辅助图像处理和基于视觉的机器人控制来应对这些挑战。

Robot Imitation from Video Demonstration
Authors Venkat Surya Teja Chereddy
本文尝试复制 Sermanet 等人进行的机器人模仿工作，特别关注涉及机器人关节位置预测的实验。虽然最初的研究利用人类姿势来预测机器人关节位置，但由于获取人类到机器人翻译数据的挑战，该项目旨在实现机器人到机器人的模仿。主要目标是提供带有机器人图像的神经网络，并让它通过回归来预测末端执行器位置。本文讨论了实现过程，包括使用开源 RoboSuite 收集数据，其中开发了一个 Python 模块来捕获四个不同机器人的随机动作数据。通过域随机化解决了数据收集中的挑战，例如振荡和有限的动作多样性。

Adaptive Online Replanning with Diffusion Models
Authors Siyuan Zhou, Yilun Du, Shun Zhang, Mengdi Xu, Yikang Shen, Wei Xiao, Dit Yan Yeung, Chuang Gan
扩散模型已成为一种有前景的数据驱动规划方法，并展示了令人印象深刻的机器人控制、强化学习和视频规划性能。给定一个有效的计划者，需要考虑的一个重要问题是当由于操作执行错误和外部环境变化而应该重新生成给定计划时重新计划。直接执行计划而不重新计划是有问题的，因为个人行动的错误会迅速累积，并且环境是部分可观察的和随机的。同时，在每个时间步重新计划会产生大量的计算成本，并且可能会阻止任务的成功执行，因为生成的不同计划会阻碍任何特定目标的一致进展。在本文中，我们探讨了如何使用扩散模型有效地重新规划。我们提出了一种原则性方法，根据扩散模型对现有生成计划的估计可能性来确定何时重新计划。我们进一步提出了一种重新规划现有轨迹的方法，以确保新计划遵循与原始轨迹相同的目标状态，这可以有效地引导先前生成的计划。我们说明了我们提出的附加功能的组合如何显着提高扩散规划器的性能，从而比 Maze2D 上过去的扩散规划方法提高了 38 倍，并进一步实现了随机和长期机器人控制任务的处理。

Current and Future Challenges in Humanoid Robotics -- An Empirical Investigation
Authors Maike Paetzel Pr smann, Alessandra Rossi, Merel Keijsers
RoboCup 的目标是随着时间的推移使机器人领域的研究变得可衡量，并发展一个共同努力解决多年来日益困难的挑战的社区。其中最雄心勃勃的挑战是能够在 2050 年与人类足球世界冠军比赛。更好地了解 RoboCup 社区成员认为最先进的技术以及未来十年和实现这一目标的主要挑战2050 游戏中，我们制定了一项调查并将其分发给社区内不同经验水平和背景的成员。我们提供来自 39 份回复的数据。

Airborne Sense and Detect of Drones using LiDAR and adapted PointPillars DNN
Authors Manduhu Manduhu, Alexander Dow, Petar Trslic, Gerard Dooly, Benjamin Blanck, James Riordan
超视距无人机群的安全运行需要采取多重保障措施，以降低在超局部场景中飞行的无人机之间发生碰撞的风险。依赖于预先计划的轨迹并需要持续的网络连接的合作导航和飞行协调策略很容易失败。无人机嵌入式感知和检测提供了无人机之间的全面分离模式，以消除冲突和避免碰撞。本文提出了第一个基于机载 LiDAR 的解决方案，用于使用 3D 深度学习进行无人机群检测和定位。它将 PointPillars 深度学习神经网络适配并嵌入到无人机上。为了收集近距离多无人机操作和安全关键场景的训练数据，场景数字孪生用于通过高保真合成数据来增强真实数据集。该方法已在现实世界的测试中得到验证。在真实数据集上进行测试时，经过训练的模型可实现超过 80 的召回率和 96 的准确率。

Benchmarking the Sim-to-Real Gap in Cloth Manipulation
Authors David Blanco Mulero, Oriol Barbany, Gokhan Alcan, Adri Colom , Carme Torras, Ville Kyrki
真实的物理引擎对于学习在模拟中操纵可变形物体（例如服装）起着至关重要的作用。通过这样做，研究人员可以规避诸如感测现实世界中物体变形等挑战。尽管在这项任务中广泛使用了模拟，但很少有工作评估可变形物体模拟器与现实世界数据之间的现实差距。我们提供了一个基准数据集来评估布料操作中的模拟与真实差距。通过执行涉及与刚性桌子接触的动态布料操作任务来收集数据集。我们使用该数据集来评估四种流行的可变形物体模拟器 MuJoCo、Bullet、Flex 和 SOFA 的现实差距、计算时间和模拟稳定性。此外，我们还讨论了每个模拟器的优点和缺点。基准数据集是开源的。

Energy-Aware Ergodic Search: Continuous Exploration for Multi-Agent Systems with Battery Constraints
Authors Adam Seewald, Cameron J. Lerch, Marvin Chanc n, Aaron M. Dollar, Ian Abraham
在搜索救援和精准农业等场景中，不间断的自主探索非常重要，这些场景需要持续存在才能检测大面积的事件。遍历搜索已经在这些场景中得出连续的覆盖轨迹，以便机器人在信息密度高的区域花费更多时间。然而，现有的遍历搜索文献没有考虑机器人的能量限制，限制了机器人可以探索的时间。事实上，如果机器人是电池供电的，那么在物理上不可能通过一次电池充电来连续探索。我们的论文通过将遍历搜索方法与能量感知覆盖相结合来应对这一挑战。我们权衡电池使用量和覆盖质量，保持至少一个代理对给定空间的不间断探索。我们的方法导出了用于估计未来充电状态的抽象电池模型，并将规范遍历搜索扩展到电池约束下的遍历搜索。

HIO-SDF: Hierarchical Incremental Online Signed Distance Fields
Authors Vasileios Vasilopoulos, Suveer Garg, Jinwook Huh, Bhoram Lee, Volkan Isler
大型、复杂的移动机器人工作空间的良好表示必须具有空间效率，同时能够编码相关的几何细节。当探索未知环境时，它需要以在线方式增量更新。我们引入 HIO SDF，这是一种将环境表示为有符号距离场 SDF 的新方法。最先进的 SDF 表示基于神经网络或体素网格。神经网络能够连续地表示 SDF。然而，它们很难增量更新，因为神经网络往往会忘记之前观察到的环境部分，除非存储大量传感器历史记录用于训练。基于体素的表示不存在这个问题，但它们的空间利用率不高，尤其是在具有精细细节的大型环境中。 HIO SDF 使用分层方法结合了这些表示的优点，该方法采用粗体素网格来捕获环境的观察部分以及高分辨率局部信息来训练神经网络。

Learning Agile Locomotion and Adaptive Behaviors via RL-augmented MPC
Authors Yiyu Chen, Quan Nguyen
在腿式机器人的背景下，自适应行为涉及自适应平衡和自适应摆动脚反射。虽然自适应平衡可以抵消对机器人的干扰，但自适应摆动脚反射可以帮助机器人在复杂的地形中导航而不会被脚困住。在本文中，我们设法通过结合 RL 和 MPC 将自适应行为的两个方面引入四足运动，同时提高盲腿运动的鲁棒性和敏捷性。这种集成利用了 MPC 的预测能力优势和 RL 吸取过去经验的能力。与将站立脚控制和摆动脚轨迹分开的传统运动控制不同，我们的创新方法将它们统一起来，解决了它们缺乏同步的问题。我们贡献的核心是将站立脚控制与摆动脚反射相结合，通过适应性行为提高运动的敏捷性和鲁棒性。我们方法的一个标志是通过摆动脚反射进行稳健的盲楼梯攀爬。此外，我们特意将学习模块设计为不同机器人平台的通用插件。我们在 Unitree A1 机器人上训练了该策略并实施了我们的方法，取得了令人印象深刻的结果：峰值转弯速率为 8.5 rad s，峰值运行速度为 3 m s，转向速度为 2.5 m s。值得注意的是，该框架还允许机器人在承受 10 公斤（即其体重的 83 倍）的意外负载时保持稳定的运动。我们进一步证明了同一策略的通用性和鲁棒性，它实现了零镜头转移到不同的机器人平台（如 Go1 和 AlienGo 机器人）进行负载。

HaptiCharger: Robotic Charging of Electric Vehicles Based on Human Haptic Patterns
Authors Oussama Alyoune, Miguel Altamirano Cabrera, Dzmitry Tsetserukou
对电动汽车日益增长的需求需要开发自动汽车充电方法。目前，电动汽车的充电过程完全是手动的，需要体力才能完成，不适合残疾人士。通常，充电任务自动化研究的重点是检测插座的位置和方向，这导致了相对较高的精度，5毫米和10度。然而，这种精度还不足以完成充电过程。在这项工作中，我们专注于设计一种基于人类触觉的稳健机器人插拔的新颖方法，以克服插座方向的误差。参与者被邀请执行充电任务，通过测量充电器的运动所施加的力来识别他们的认知能力。

BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
Authors Odhran O Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques
自动生成准确的科学实验方案的能力将代表着科学自动化的重要一步。大型语言模型法学硕士在各种任务上都具有令人印象深刻的能力，例如回答问题以及生成连贯的文本和代码。然而，法学硕士可能会遇到多步骤问题和长期规划，而这对于设计科学实验至关重要。此外，评估科学方案的准确性具有挑战性，因为实验可以通过多种不同的方式正确描述，需要专业知识来评估，并且通常不能自动执行。在这里，我们提出了一个用于规划实验方案任务的自动评估框架，并引入了 BioProt 一个具有相应伪代码表示的生物学方案数据集。为了衡量生成科学协议的性能，我们使用 LLM 将自然语言协议转换为伪代码，然后评估 LLM 根据高级描述和可接受的伪代码函数列表重建伪代码的能力。我们在此任务上评估 GPT 3 和 GPT 4 并探索它们的稳健性。我们通过使用检索到的伪代码生成准确的新颖协议来从外部验证文本伪代码表示的实用性，并且我们在生物实验室中成功运行生成的协议。

Video Language Planning
Authors Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
我们感兴趣的是，利用在互联网规模数据上预训练的大型生成模型的最新进展，在生成的视频和语言空间中实现复杂的长期任务的视觉规划。为此，我们提出了视频语言规划 VLP，这是一种由树搜索过程组成的算法，其中我们训练视觉语言模型作为策略和价值函数，训练文本到视频模型作为动态模型。 VLP 将长视野任务指令和当前图像观察作为输入，并输出长视频计划，该计划提供详细的多模态视频和语言规范，描述如何完成最终任务。 VLP 随着计算预算的增加而扩展，其中更多的计算时间会导致视频计划的改进，并且能够跨不同的机器人领域合成长期视频计划，从多对象重新排列到多相机双臂灵巧操作。生成的视频计划可以通过目标条件策略转化为真实的机器人动作，以生成视频的每个中间帧为条件。

Quantifying Assistive Robustness Via the Natural-Adversarial Frontier
Authors Jerry Zhi Yang He, Zackory Erickson, Daniel S. Brown, Anca D. Dragan
我们的最终目标是为帮助人类的机器人制定强有力的政策。造成这一问题的困难在于，人们在测试时可能会表现出意想不到的行为，可能会在训练分布之外与机器人进行交互并导致失败。即使只是测量稳健性也是一个挑战。对抗性扰动是默认的，但它们可能会描绘出与人类运动相对应的错误图片，而这些运动在与人的自然交互过程中不太可能发生。机器人策略在小的对抗扰动下可能会失败，但在大的自然扰动下却有效。我们建议，在这些交互环境中捕获鲁棒性需要构建和分析整个自然对抗边界，即人类政策的帕累托边界，这是自然性和低机器人性能之间的最佳权衡。我们引入了 RIGID，这是一种通过训练对抗性人类策略来构建这一前沿的方法，该策略在最小化机器人奖励和通过判别器测量的表现得像人类之间进行权衡。在辅助健身房任务中，我们使用 RIGID 来分析标准协作强化学习的性能，以及旨在提高鲁棒性的现有方法的性能。我们还将边界 RIGID 识别与专家对抗性交互中识别的故障以及用户交互期间自然发生的故障进行比较。

A Novel Benchmarking Paradigm and a Scale- and Motion-Aware Model for Egocentric Pedestrian Trajectory Prediction
Authors Amir Rasouli
预测行人行为是智能驾驶系统的主要挑战之一。在本文中，我们提出了一种评估以自我为中心的行人轨迹预测算法的新范例。基于各种上下文信息，我们提取驾驶场景，以采用有意义且系统的方法来识别预测模型的挑战。在这方面，我们还提出了一个新的指标，以便在基于场景的评估中进行更有效的排名。我们对这些场景的现有模型进行了广泛的实证研究，以揭示不同方法的缺点和优点。基于场景的分析强调了使用多模式信息源的重要性以及由于行人自我运动和规模建模不充分而带来的挑战。为此，我们提出了一种新颖的以自我为中心的轨迹预测模型，该模型受益于以有效且高效的逐步分层方式融合的多模态数据源以及旨在学习更强大的场景动态表示的两个辅助任务。

Camera-LiDAR Fusion with Latent Contact for Place Recognition in Challenging Cross-Scenes
Authors Yan Pan, Jiapeng Xie, Jiajie Wu, Bo Zhou
尽管已经取得了重大进展，但在视角变化、季节变化和场景变换的环境中实现地点识别仍然具有挑战性。仅依靠单个传感器的感知信息不足以解决这些问题。认识到相机和激光雷达之间的互补性，多模态融合方法引起了人们的关注。为了解决现有多模态融合工作中的信息浪费问题，本文引入了一种新颖的三通道位置描述符，它由图像、点云和融合分支的级联组成。具体来说，基于融合的分支采用双级管道，利用两种模态与潜在接触之间的相关性，从而促进信息交互和融合。

Multi-Body Neural Scene Flow
Authors Kavisha Vidanapathirana, Shin Fang Chng, Xueqian Li, Simon Lucey
使用坐标网络作为神经先验的场景流测试时间优化因其简单性、缺乏数据集偏差和最先进的性能而受到欢迎。然而，我们观察到，虽然坐标网络通过隐式地将场景流预测规范化为空间平滑来捕获一般运动，但神经先验本身无法识别现实世界数据中存在的底层多体刚性运动。为了解决这个问题，我们证明了可以实现多体刚度，而无需像之前的工作那样采用繁琐且脆弱的策略来约束每个刚体的 SE 3 参数。这是通过规范场景流优化以鼓励刚体流预测中的等距来实现的。该策略在保持连续流场的同时实现场景流中的多体刚性，从而允许跨点云序列的密集长期场景流集成。我们对现实世界数据集进行了广泛的实验，并证明我们的方法在 3D 场景流和长期逐点 4D 轨迹预测方面优于最先进的方法。

No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification
Authors Andrey Zhitnikov, Ori Sztyglic, Vadim Indelman
众所周知，具有一般信念依赖奖励的连续 POMDP 很难在线解决。在本文中，我们提出了一个完整的可证明的自适应多级简化理论，用于设置给定的外部构建的信念树和使用探索技术动态构建信念树的 MCTS。我们的理论允许通过信念依赖奖励来加速 POMDP 规划，而不会牺牲所获得解决方案的质量。我们严格证明了所提出的统一理论中的每个理论主张。使用一般理论结果，我们提出了三种算法来加速具有信念依赖奖励的连续 POMDP 在线规划。我们的两种算法 SITH BSP 和 LAZY SITH BSP 可以在任何从外部构建置信树的方法之上使用。第三种算法 SITH PFT 是一种随时可用的 MCTS 方法，允许插入任何探索技术。我们所有的方法都保证返回与未简化的等效方法完全相同的最佳操作。我们用我们在本文中推导的新颖的自适应上限和下限取代了信息论奖励的昂贵计算，并且具有独立的兴趣。我们证明它们很容易计算，并且可以根据我们算法的需求进行收紧。我们的方法是通用的，即任何单调收敛于奖励的边界都可以轻松插入，以实现显着的加速，而不会损失任何性能。我们的理论和算法支持连续状态、动作和观察的挑战性设置。这些信念可以是参数的或一般的，并由加权粒子表示。

Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network
Authors Xinting Li, Shizhou Zhang, Yue LU, Kerry Dan, Lingyan Ran, Peng Wang, Yanning Zhang
本文研究零射击目标视觉导航问题。在目标目标视觉导航任务中，智能体需要从其以自我为中心的视觉输入中定位导航目标。零射击意味着智能体需要寻找的目标在训练阶段没有经过训练。为了解决训练过程中导航能力与目标特征的耦合问题，我们提出了类独立关系网络 CIRN 。该方法将目标检测信息与目标与导航目标之间的相对语义相似度相结合，构建一种基于相似度排序的全新状态表示，该状态表示不包含目标特征或环境特征，有效解耦了智能体的导航能力从目标特征。图卷积网络 GCN 用于根据不同对象的相似性来学习它们之间的关系。在测试过程中，我们的方法展示了强大的泛化能力，包括不同目标和环境的零射击导航任务。通过在 AI2 THOR 虚拟环境中进行大量实验，我们的方法在零射击目标视觉导航任务中优于当前最先进的方法。此外，我们在更具挑战性的跨目标和跨场景设置中进行了实验，这进一步验证了我们方法的鲁棒性和泛化能力。

MoEmo Vision Transformer: Integrating Cross-Attention and Movement Vectors in 3D Pose Estimation for HRI Emotion Detection
Authors David C. Jeong, Tianma Shen, Hongji Liu, Raghav Kapoor, Casey Nguyen, Song Liu, Christopher A. Kitts
情绪检测对智能人机交互 HRI 提出了挑战。用于情绪检测的基础深度学习技术受到信息受限的数据集或模型的限制，这些数据集或模型缺乏学习输入数据元素之间交互所需的复杂性，例如不同上下文中人类情绪的差异。在当前的工作中，我们引入了 1 MoEmo Motion to Emotion，这是一种交叉注意力视觉转换器 ViT，用于基于跨各种环境的 3D 人体姿势估计来检测机器人系统中的人类情绪，以及 2 一个提供人体运动和全身视频的数据集。基于人类手势和环境背景的相应情感标签。与现有方法相比，我们的方法通过对提取的全身人体手势姿势的运动向量和环境背景的特征图使用交叉注意力，有效地利用了手势的运动向量和环境背景之间的微妙联系。我们实现了交叉注意融合模型，将运动向量和环境上下文组合成联合表示，以导出情感估计。

SVM based Multiclass Classifier for Gait phase Classification using Shank IMU Sensor
Authors Aswadh Khumar G S, Barath Kumar JK
本研究提出了一种基于SVM多类分类的步态阶段分类方法，重点关注站立阶段和摆动阶段的精确识别，并将其进一步细分为七个阶段。来自各个 IMU 传感器的数据（例如小腿加速度 X、Y、Z、小腿陀螺仪 X 和膝关节角度）用作该分类模型中的特征。建议的技术成功地对各种步态阶段进行了分类，准确度约为 90.3 。步态阶段分类至关重要，尤其是在外骨骼和假肢领域，准确识别步态阶段可以实现与辅助设备的无缝集成，从而提高移动性、稳定性和能源经济性。

Recursively-Constrained Partially Observable Markov Decision Processes
Authors Qi Heng Ho, Tyler Becker, Ben Kraske, Zakariya Laouar, Martin Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg
在许多问题中，需要优化目标函数，同时对问题的某些其他方面施加约束。受约束的部分可观察马尔可夫决策过程 C POMDP 允许对此类问题进行建模，同时受到转移不确定性和部分可观察性的影响。通常，C POMDP 中的约束对从初始状态分布开始的预期累积成本强制施加阈值。在这项工作中，我们首先证明最优 C POMDP 策略可能违反贝尔曼的最优原则，因此可能表现出病态行为，这对于许多应用来说可能是不受欢迎的。为了解决这个缺点，我们引入了一种新的公式，即递归约束 POMDP RC POMDP ，它对 C POMDP 施加了额外的历史相关成本约束。我们证明，与 C POMDP 不同，RC POMDP 始终具有确定性最优策略，并且最优策略遵循贝尔曼最优原则。我们还提出了一种基于点的动态规划算法，该算法可以综合 RC POMDP 的最优策略。

MAC: ModAlity Calibration for Object Detection
Authors Yutian Lei, Jun Liu, Dong Huang
深度神经网络 DNN 在 RGB 输入感知任务上取得的巨大成功，为非 RGB 输入感知任务（例如从无线信号、激光雷达扫描和红外图像中进行物体检测）开辟了无限的可能性。与 RGB 输入源模态模型的成熟开发流程相比，从头开始开发非 RGB 输入目标模态模型对模态特定网络设计训练技巧和目标模态注释中的劳动提出了巨大的挑战。在本文中，我们提出了 ModAlity Calibration MAC，这是一种有效的管道，用于校准在 RGB 源模态上开发的 DNN 对象检测模型的目标模态输入。我们通过在源模态模型之前添加一个小型校准器模块来构建目标模态输入模型，并引入 MAC 训练技术对校准器进行密集监督。通过利用从源模态模型合成的 1 个先验知识和 2 个配对的目标、零手动注释的源数据，我们的目标模态模型达到了与需要 100 个手动注释的基线模型相当或更好的指标。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com