【AI视野·今日Robot 机器人论文速览 第四十七期】Wed, 4 Oct 2023

73 篇文章 11 订阅
48 篇文章 2 订阅

AI视野·今日CS.Robotics 机器人学论文速览
Wed, 4 Oct 2023
Totally 40 papers
👉上期速览更多精彩请移步主页

Interesting:

📚基于神经网络的多模态触觉感知, classification, position, posture, and force of the grasped object多模态形象的解耦(from 华南师范 李昕明组)
在这里插入图片描述在这里插入图片描述在这里插入图片描述


📚球型机器人, 设计制造控制综述(from 加拿大魁北克高等技术学院)
在这里插入图片描述
在这里插入图片描述


📚OceanGPT, 海洋科学任务的GPT模型(from 浙大)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
website:https://zjunlp.github.io/project/OceanGPT/

📚基于大语言模型的机器人操作, (from 新加坡国立)
在这里插入图片描述
website:https://object814.github.io/Task-Condition-With-LLM/


Daily Robotics Papers

Generalizable Long-Horizon Manipulations with Large Language Models
Authors Haoyu Zhou, Mingyu Ding, Weikun Peng, Masayoshi Tomizuka, Lin Shao, Chuang Gan
这项工作介绍了一个框架,该框架利用大型语言模型法学硕士的功能来生成原始任务条件,以便对新颖的对象和看不见的任务进行可概括的长期操作。这些任务条件可作为生成和调整动态运动基元 DMP 轨迹的指南,以实现长期任务执行。我们进一步创建了一个基于 Pybullet 的具有挑战性的机器人操作任务套件,用于长期任务评估。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关的任务上的有效性,凸显了法学硕士在增强机器人系统多功能性和适应性方面的潜力。

Spherical Rolling Robots Design, Modeling, and Control: A Systematic Literature Review
Authors Aminata Diouf, Bruno Belzile, Maarouf Saad, David St Onge
球形机器人因其在勘探、隧道检查和外星任务中的应用而引起了越来越多的兴趣。各种各样的设计已经出现,包括重心配置、基于摆的机构等。此外,还提出了广泛的控制策略,从传统的 PID 方法到尖端的神经网络。我们的系统回顾旨在对 1996 年至 2023 年期间球形机器人采用的运动系统和控制方案进行全面识别和分类。对五个数据库的细致搜索产生了包含 3189 条记录的数据集。经过详尽的分析,我们确定了一系列新颖的设计和控制策略。利用所获得的见解,我们为优化球形机器人的设计和控制方面提供了宝贵的建议,支持新颖的设计工作和现场部署的进步。

What do we learn from a large-scale study of pre-trained visual representations in sim and real environments?
Authors Sneha Silwal, Karmesh Yadav, Tingfan Wu, Jay Vakil, Arjun Majumdar, Sergio Arnaud, Claire Chen, Vincent Pierre Berges, Dhruv Batra, Aravind Rajeswaran, Mrinal Kalakrishnan, Franziska Meier, Oleksandr Maksymets
我们对使用预先训练的视觉表示 PVR 来训练执行现实世界任务的下游策略进行了大规模的实证研究。我们的研究涵盖五种不同的 PVR、两种不同的策略学习范式模仿和强化学习,以及用于 5 种不同操作和室内导航任务的三种不同机器人。通过这项工作,我们可以得出三点见解:1 PVR 在模拟中的性能趋势通常反映了它们在现实世界中的趋势,2 PVR 的使用实现了首个此类结果,即室内 ImageNav 零镜头传输到保留了现实世界中的场景,3 PVR 变化带来的好处(主要是数据增强和微调)也转移到了现实世界的性能。

TreeScope: An Agricultural Robotics Dataset for LiDAR-Based Mapping of Trees in Forests and Orchards
Authors Derek Cheng, Fernando Cladera Ojeda, Ankit Prabhu, Xu Liu, Alan Zhu, Patrick Corey Green, Reza Ehsani, Pratik Chaudhari, Vijay Kumar
林业、木材和农业的数据收集目前依赖于手工技术,这是劳动密集型且耗时的。我们试图证明机器人技术可以改进这些技术并加速农业研究,从森林和果园中树木的语义分割和直径估计开始。我们推出了 TreeScope v1.0,这是第一个用于精准农业和林业的机器人数据集,解决林业和果园中树木的计数和绘图问题。 TreeScope 提供通过机器人平台(例如车辆和操作员携带的无人机和移动机器人平台)收集的农业环境中的 LiDAR 数据。在此数据集的第一个版本中,我们提供了地面实况数据,其中包含超过 1,800 个手动注释的树干语义标签和现场测量的树木直径。我们分享这些任务的基准脚本,研究人员可以使用它们来评估其算法的准确性。

Adaptive Gait Modeling and Optimization for Principally Kinematic Systems
Authors Siming Deng, Noah J. Cowan, Brian A. Bittner
机器人适应意外操作条件对于在复杂的现实世界环境中实现持久性和鲁棒性至关重要。对于各种尖端机器人系统,例如微米级和纳米级机器人、软体机器人、医疗机器人和生物混合机器人,由于包括不精确性在内的多种因素而产生的复杂性,先验地预测操作环境是不可行的。制造、化学机械力以及人们对接触力学知之甚少。从数据驱动建模、几何力学或规范理论以及自适应控制中汲取灵感,我们采用了自适应系统识别框架,并证明了其在增强受瑞利耗散或零动量守恒控制的主要运动学运动机性能方面的功效。我们展示了自适应模型在行为优化框架内有效适应不同地形和迭代修改行为的能力。这提供了改善基本行为和精确执行运动跟踪的能力。值得注意的是,我们能够使用每个链接大约 10 个循环来优化 Purcell 游泳者的步态,这对于九链接 Purcell 游泳者来说,优化速度比现有技术提高了十倍。

Fast algorithm for centralized multi-agent maze exploration
Authors Bojan Crnkovi , Stefan Ivi , Mila Zovko
机器人技术的最新进展为机器人在危险情况下取代人类铺平了道路,例如在燃烧的建筑物、地震受损的建筑物、未知的洞穴中寻找受害者、穿越雷区或在犯罪猖獗的街道上巡逻。这些挑战可以概括为智能体需要探索未知迷宫的问题。

Video Transformers under Occlusion: How Physics and Background Attributes Impact Large Models for Robotic Manipulation
Authors Shutong Jin, Ruiyu Wang, Muhammad Zahid, Florian T. Pokorny
随着变压器架构和数据集大小的不断扩展,了解影响模型性能的特定数据集因素的需求变得越来越紧迫。本文研究了物体物理属性颜色、摩擦系数、形状和背景特征静态、动态、背景复杂性如何影响视频变换器在遮挡下的轨迹预测任务中的性能。除了单纯的遮挡挑战之外,本研究还旨在研究三个问题:对象物理属性和背景特征如何影响模型性能?哪些属性对模型泛化影响最大?单个任务中大型变压器模型性能是否存在数据饱和点?为了促进这项研究,我们提出了 OccluManip,一个基于现实世界视频的机器人推送数据集,包含 460,000 个具有不同物理特性和不同背景的物体的一致记录。收集了 1.4 TB、总计 1278 小时的灵活时间长度和目标物体轨迹的高质量视频,以适应不同时间要求的任务。此外,我们提出了 Video Occlusion Transformer VOT ,这是一种基于通用视频转换器的网络,在 OccluManip 中提供的所有 18 个子数据集上实现了平均 96 的准确度。

A Vision-Based Tactile Sensing System for Multimodal Contact Information Perception via Neural Network
Authors Weiliang Xu, Guoyuan Zhou, Yuanzhi Zhou, Zhibin Zou, Jiali Wang, Wenfeng Wu, Xinming Li
一般来说,机器人灵巧手配备各种传感器,用于获取抓取物体的位置、力和姿态等多模态接触信息。这种基于多传感器的设计增加了机器人系统的复杂性。相比之下,基于视觉的触觉传感器采用专门的光学设计,能够在单个系统内跨不同模式提取触觉信息。尽管如此,通用系统中不同模式的解耦设计通常是独立的。因此,随着触觉模态维度的增加,它在数据处理和解耦方面提出了更复杂的挑战,从而在一定程度上限制了其应用。在这里,我们开发了一种基于视觉触觉传感器的多模态传感系统,该系统利用触觉信息的视觉表示来感知所抓取物体的多模态接触信息。视觉表示包含广泛的内容,可以通过深度神经网络解耦以获得多模态接触信息,例如抓取物体的分类、位置、姿势和力。结果表明,触觉传感系统仅使用一个传感器即可感知多模态触觉信息,并且无需针对不同模态触觉信息进行不同的数据解耦设计,降低了触觉系统的复杂性,展示了多模态触觉集成在各个领域的潜力,例如

Collaborative Active SLAM: Synchronous and Asynchronous Coordination Among Agents
Authors Matteo Maragliano, Muhammad Farhan Ahmed, Carmine Tommaso Recchiuto, Antonio Sgorbissa, Vincent Fremont
在自主机器人领域,一个关键的挑战在于为主动协作 SLAM 开发强大的解决方案,其中多个机器人必须协作探索和绘制未知环境,同时智能地协调它们的运动和传感器数据采集。为此,我们提出了两种方法来协调由多个机器人组成的系统,以执行主动协作 SLAM AC SLAM 进行环境探索。我们的同步和异步两种协调方法实现了一种方法来确定中央服务器对机器人目标分配的优先级。我们还提出了一种方法,可以有效地分散机器人以进行最大程度的探索,同时保持 SLAM 不确定性较低。

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
Authors Long Chen, Oleg Sinavski, Jan H nermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
大型语言模型法学硕士在自动驾驶领域显示出了前景,特别是在泛化性和可解释性方面。我们引入了一种独特的对象级多模态 LLM 架构,该架构将矢量化数字模态与预先训练的 LLM 相结合,以提高对驾驶情况的上下文理解。我们还提出了一个新的数据集,其中包含源自 10k 驾驶场景的 160k QA 对,并配有 RL 代理收集的高质量控制命令以及由教师 LLM GPT 3.5 生成的问题答案对。设计了一种独特的预训练策略,使用矢量字幕语言数据将数字矢量模态与静态 LLM 表示对齐。我们还引入了驾驶质量检查的评估指标,并展示了我们的法学硕士驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。与传统的行为克隆相比,我们的研究结果凸显了基于法学硕士的驾驶行为生成的潜力。

Ravestate: Distributed Composition of a Causal-Specificity-Guided Interaction Policy
Authors Joseph Birkner, Andreas Dolp, Negin Karimi, Nikita Basargin, Alona Kharchenko, Rafael Hostettler
在人机交互策略设计中,基于规则的方法具有高效、可解释、富有表现力和直观的特点。在本文中,我们提出了信号规则槽框架,该框架改进了基于规则的符号系统设计的先前工作,并引入了一种新的交互规则效用的贝叶斯概念,称为因果路径自信息。我们提供严格的理论基础以及丰富的开源参考实现 Ravestate,通过它我们可以在基于文本、语音和视觉的场景中进行用户研究。

Automatic Data Processing for Space Robotics Machine Learning
Authors Anja Sheppard, Katherine A. Skinner
自主地形分类是行星导航中的一个重要问题,无论目标是识别感兴趣的科学地点还是安全穿越危险区域。过去的火星漫游车一直依靠人类操作员从传输的图像中手动识别可导航的路径。我们未来几十年在火星上的目标最终将需要漫游车能够自主移动得更远、更快,并穿越更危险的地形,这表明需要改进地形分类以提高可穿越性。通过极端环境的自主导航将使在月球和火星上寻找水以及为人类栖息地做好准备成为可能。机器学习技术的进步已经证明了提高地球地面车辆地形分类能力的潜力。然而,空间应用的分类结果受到适合监督学习方法的训练数据的可用性的限制。本文贡献了一个开源自动数据处理管道,该管道使用相机几何结构通过地形模型上的射线投影将“好奇号”和“毅力号”桅杆摄像头图像产品与火星高架地图一起定位。

A Distributed Multi-Robot Framework for Exploration, Information Acquisition and Consensus
Authors Aalok Patwardhan, Andrew J. Davison
执行复杂任务的机器人团队的分布式协调很难制定。完整任务的不同方面,例如避障的局部规划、全局目标协调和协作绘图,通常是单独解决的,而显然,每个方面都应该影响其他方面,以获得最有效的行为。在本文中,我们使用机器人团队探索大空间时分布式信息获取的示例应用来表明,我们可以将整个问题表示为一个单因子图,其中多个连接层代表每个方面。我们使用高斯置信传播 GBP 作为推理机制,当不同方面或多或少重要时,它允许并行、按需或异步计算以提高效率。这是分布式 GBP 多机器人求解器首次被证明能够实现智能协作行为,而不仅仅是引导机器人实现个人自私的目标。

Route Design in Sheepdog System--Traveling Salesman Problem Formulation and Evolutionary Computation Solution--
Authors Wataru. Imahayashi, Yusuke. Tsunoda, Masaki. Ogura
在本研究中,我们考虑牧羊犬系统的引导控制问题,其中涉及利用牧羊犬和羊的特性对羊群进行引导。 Sheepdog系统需要一种策略来使用少量的Sheepdog智能体来引导羊智能体达到目标值,并且已经提出了各种方法。先前的研究提出了一种可靠地引导羊群的引导控制律,但没有考虑引导所需的牧羊犬的运动距离。因此,在本研究中,我们提出了一种新颖的引导算法,其中通过旅行商问题和进化计算设计了一条所谓的引导羊群的有效路线。通过数值模拟来确认是否可以使用所获得的引导路线来引导和控制羊群。

Semi-Aerodynamic Model Aided Invariant Kalman Filtering for UAV Full-State Estimation
Authors Xiaoyu Ye, Fujun Song, Zongyu Zhang, Rui Zhang, Qinghua Zeng
由于不变卡尔曼滤波InEKF具有状态轨迹无关的特点,其显着提高了状态估计精度和扰动下的收敛性,引起了研究界的广泛关注。在本文中,我们在基于李群上的误差状态右不变扩展卡尔曼滤波ES RIEKF的框架内制定了固定翼无人机的全源数据融合导航问题。我们合并无人机上多速率机载传感器网络的测量结果,以实现姿态、气流角度和风速的实时估计。提供了详细的推导,并使用无人机的真实飞行数据演示了该算法相对于误差状态 EKF ES EKF 和非线性互补滤波器 NCF 等现有方法的收敛性和精度改进。此外,我们引入了仅依赖于地面可测量参数的半空气动力学模型融合框架。我们设计和训练长短期记忆 LSTM 深度网络,利用操纵面偏转等易于获取的机载数据实现无人机迎角 AOA 和侧滑角 SA 的无漂移预测,从而显着减少对 GNSS 或复杂空气动力学模型的依赖参数。此外,我们验证了该算法在 GNSS 拒绝的情况下的稳健优势,其中飞行数据显示,在 130 秒的拒绝期内,最大定位误差保持在 30 米以内。据我们所知,本研究首次将ES RIEKF应用于固定翼无人机全源导航应用,旨在为设计人员提供工程参考。

Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency
Authors Francisco Roldan Sanchez, Qiang Wang, David Cordova Bulens, Kevin McGuinness, Stephen Redmond, Noel O Connor
Hindsight Experience Replay HER 是强化学习 RL 中使用的一种技术,已被证明对于训练基于策略 RL 的代理非常有效,以使用稀疏奖励解决基于目标的机器人操作任务。尽管 HER 通过从过去的经验中犯下的错误中学习,提高了基于 RL 的代理的样本效率,但它在探索环境时并没有提供任何指导。由于使用这种重放策略训练代理需要大量的经验,这会导致训练时间非常长。在本文中,我们提出了一种方法,该方法使用先前学习的原始行为来解决简单任务,以便引导代理在探索过程中采取更有价值的行动,同时学习其他更复杂的任务。然而,这种指导并不是通过手动设计的课程来执行的,而是使用批评者网络在每个时间步决定是否使用先前学习的原始策略提出的动作。我们通过在几个块操作任务中将其性能与 HER 以及该算法的其他更有效的变体进行比较来评估我们的方法。我们证明,在使用我们提出的方法时,代理可以在样本效率和计算时间方面更快地学习成功的策略。

TempoNet: Empowering long-term Knee Joint Angle Prediction with Dynamic Temporal Attention in Exoskeleton Control
Authors Lyes Saad Saoud, Irfan Hussain
在外骨骼控制领域,由于外骨骼的机械延迟,实现精确控制面临着挑战。为了解决这个问题,有人提出将未来的步态轨迹作为前馈输入。然而,现有的步态预测深度学习模型主要侧重于短期预测,而这些模型的长期性能相对尚未得到探索。在这项研究中,我们提出了 TempoNet,这是一种专为精确膝关节角度预测而设计的新颖模型。通过利用基于 Transformer 的架构中的动态时间注意力,TempoNet 在预测较长时间范围内的膝关节角度方面超越了现有模型。值得注意的是,与其他基于变压器的模型相比,我们的模型在提前 100 毫秒的预测中,平均绝对误差 MAE 显着降低了 10 到 185,证明了其有效性。此外,TempoNet 比基线 Transformer 模型表现出进一步的可靠性和优越性,在 200 毫秒的预测范围内,MAE 比它高出 14。这些发现强调了 TempoNet 在准确预测膝关节角度方面的功效,并强调了纳入动态时间注意力的重要性。 TempoNet 提高膝关节角度预测准确性的能力为精确控制、改善康复结果、先进的运动表现分析以及更深入地了解生物力学研究提供了可能性。

STAMP: Differentiable Task and Motion Planning via Stein Variational Gradient Descent
Authors Yewon Lee 1 , Philip Huang 2 , Krishna Murthy Jatavallabhula 3 , Andrew Z. Li 1 , Fabian Damken 1 and 4 , Eric Heiden 5 , Kevin Smith 3 , Derek Nowrouzezahrai 6 , Fabio Ramos 5 and 7 , Florian Shkurti 1 1 University of Toronto, 2 Carnegie Mellon University, 3 Massachusetts Institute of Technology, 4 Technische Universitat Darmstadt, 5 NVIDIA, 6 McGill University, 7 University of Sydney
规划许多操作任务(例如使用工具或组装零件)通常需要符号推理和几何推理。任务和运动规划 TAMP 算法通常通过对高级任务​​序列进行树搜索,同时检查运动学和动态可行性来解决这些问题。虽然性能良好,但大多数现有算法效率非常低,因为它们的时间复杂度随着可能的动作和对象的数量呈指数增长。此外,他们只能找到单一的解决方案来解决可能存在许多可行计划的问题。为了解决这些限制,我们提出了一种称为 Stein 任务和运动规划 STAMP 的新颖算法,该算法利用并行化和可微分模拟来有效地搜索多个不同的计划。 STAMP 将离散和连续 TAMP 问题放松为可以使用变分推理解决的连续优化问题。我们的算法建立在 Stein 变分梯度下降(一种基于梯度的变分推理算法)和 GPU 上的并行可微物理模拟器的基础上,以有效获取推理梯度。此外,我们采用模仿学习来引入动作抽象,将推理问题减少到较低的维度。

Differentially Encoded Observation Spaces for Perceptive Reinforcement Learning
Authors Lev Grossman, Brian Plancher
感知深度强化学习 DRL 最近为利用基于图像的输入数据的复杂人工智能系统带来了许多突破。这些结果的应用范围从超人类水平的视频游戏代理到灵巧的、身体智能的机器人。然而,训练这些支持 DRL 的感知系统仍然需要大量的计算和内存,通常需要大量的训练数据集和大量的经验重放缓冲区。这对下一代现场机器人提出了挑战,它们需要能够在边缘学习才能适应环境。在本文中,我们开始通过差分编码观察空间来解决这个问题。通过将存储的基于图像的观察结果重新解释为视频,我们利用无损差分视频编码方案来压缩重播缓冲区,而不影响训练性能。我们使用三种最先进的 DRL 算法评估我们的方法,发现差分图像编码在 Atari 2600 基准测试和 DeepMind Control Suite DMC 的任务中分别减少了 14.2 倍和 16.7 倍的内存占用。

Control of Soft Pneumatic Actuators with Approximated Dynamical Modeling
Authors Wu Te Yang, Burak Kurkcu, Motohiro Hirao, Lingfeng Sun, Xinghao Zhu, Zhizhou Zhang, Grace X. Gu, Masayoshi Tomizuka
本文介绍了注射泵和软气动执行器 SPA 的完整系统建模策略。软执行器被概念化为梁结构,利用二阶弯曲模型。固有频率方程是从欧拉弯曲理论推导出来的,而阻尼比是通过拟合软气动执行器的阶跃响应来估计的。模型不确定性的评估强调了我们建模方法的稳健性。为了验证我们的方法,我们将其部署在四个尺寸参数不同的原型上。此外,设计了注射泵来驱动执行器,并提出了压力模型来构建完整的系统模型。通过采用这个完整的系统模型,线性二次调节器LQR控制器被实现来控制软执行器,在阶跃响应和方波函数响应测试中实现高速响应和高精度。建模方法和 LQR 控制器都通过实验进行了彻底的评估。

RETRO: Reactive Trajectory Optimization for Real-Time Robot Motion Planning in Dynamic Environments
Authors Apan Dastider, Hao Fang, Mingjie Lin
机器人的反应式轨迹优化提出了巨大的挑战,要求在复杂且快速变化的动态环境中快速生成有目的的机器人运动。虽然许多现有研究主要针对具有预定义目标的机器人运动规划,但机器人轨迹优化中出现的问题经常涉及动态演化的目标和随机运动动力学。

Predicting Future Spatiotemporal Occupancy Grids with Semantics for Autonomous Driving
Authors Maneekwan Toyungyernsub, Esen Yel, Jiachen Li, Mykel J. Kochenderfer
为了让自动驾驶车辆主动规划安全轨迹并做出明智的决策,它们必须能够预测当地环境的未来占用状态。然而,占用预测的常见问题包括预测移动物体消失或变得模糊,特别是在较长的时间范围内。我们提出了一个环境预测框架,其中包含用于未来占用预测的环境语义。我们的方法首先对环境进行语义分割,并使用该信息以及占用信息来预测环境的时空演变。我们在现实世界的 Waymo 开放数据集上验证了我们的方法。

Imitation Learning from Observation through Optimal Transport
Authors Wei Di Chang, Scott Fujimoto, David Meger, Gregory Dudek
观察模仿学习 ILfO 是一种学习者尝试模仿专家行为的环境,仅使用观察数据,而没有演示行动的直接指导。在本文中,我们重新研究了 IL 最优传输的使用,其中根据学习者和专家状态轨迹之间的 Wasserstein 距离生成奖励。我们表明,可以简化现有方法来生成奖励函数,而不需要学习模型或对抗性学习。与许多其他最先进的方法不同,我们的方法可以与任何 RL 算法集成,并且适合 ILfO。我们证明了这种简单方法在各种连续控制任务上的有效性,并发现它超越了 IlfO 设置中的最新技术,即使在仅观察单个专家轨迹而不采取任何操作时,也能在一系列评估领域实现专家级性能

Distributed Multi-agent Interaction Generation with Imagined Potential Games
Authors Lingfeng Sun, Pin Yun Hung, Changhao Wang, Masayoshi Tomizuka, Zhuo Xu
多个智能体的交互行为建模是仿真中的一个重要挑战,特别是在智能体需要同时避免碰撞和合作的场景中。人类可以在没有明确沟通的情况下与他人互动,并在需要合作的场景中进行导航。在这项工作中,我们的目标是在这种现实环境中模拟人类交互,其中每个智能体根据其观察采取行动,并且不与其他智能体进行交流。我们提出了一个基于分布式潜在博弈的框架,其中每个代理想象与其他代理的合作游戏,并使用其对行为的估计来解决游戏。我们利用 iLQR 来解决游戏并闭环模拟交互。我们通过各种模拟实验展示了在我们的框架中利用分布式想象游戏的好处。我们展示了高成功率、提高的导航效率以及通过可解释的参数生成丰富且真实的交互的能力。

Memory-efficient particle filter recurrent neural network for object localization
Authors Roman Korkin, Ivan Oseledets, Aleksandr Katrutsa
本研究提出了一种新颖的内存高效循环神经网络 RNN 架构,专门用于解决对象定位问题。该问题是在噪声环境中恢复对象状态及其运动。我们采用经典粒子滤波器的思想并将其与 GRU RNN 架构相结合。由此产生的内存高效粒子过滤 RNN 模型 mePFRNN 的关键特征是它需要相同数量的参数来处理不同大小的环境。因此,与之前提出的 PFRNN 模型相比,所提出的 mePFRNN 架构消耗更少的内存来存储参数。为了展示我们模型的性能,我们在对称和嘈杂的环境中对其进行了测试,这对过滤算法来说极具挑战性。

Potential Ways to Detect Unfairness in HRI and to Re-establish Positive Group Dynamics
Authors Astrid Rosenthal von der P tten, Stefan Schiffer
本文重点研究基于不同算法的机器人行为偏差的识别及其在人类机器人混合群体中的后果。我们建议开发计算模型来检测微攻击、歧视和社会排斥的事件,通过观察人类应对行为来重新获得社会包容性,并使用揭示人类互动者不平等待遇的系统固有信息。

Hybrid Platform for Swarm Robotics: Experiments and High-Dimensional Continuification Control
Authors Gian Carlo Maffettone, Lorenzo Liguori, Eduardo Palermo, Mario di Bernardo, Maurizio Porfiri
控制理论和技术中的一个重大挑战是设计敏捷且资源密集程度较低的实验,以评估用于大规模复杂系统集体协调的控制算法的性能和可行性。许多新方法基于新兴系统行为的宏观表征,并且由于开发全尺寸实验平台的固有障碍,只能通过数值模拟轻松验证。在本文中,我们介绍了一种用于测试群体机器人技术的新型混合设置,重点关注机器人群体的集体运动。这种混合装置结合了真实的差动驱动机器人和虚拟代理,以创建大小可调的异构群。我们通过扩展到更高的维度并通过实验研究基于连续性的群体控制方法来验证该方法。我们的研究证明了该平台用于进行大规模群体机器人实验的多功能性和有效性。

Decision-Oriented Intervention Cost Prediction for Multi-robot Persistent Monitoring
Authors Guangyao Shi, Chak Lam Shek, Nare Karapetyan, Pratap Tokekar
在本文中,我们针对一类车辆路径问题提出了一种可微的、面向决策的学习技术。具体来说,我们考虑这样一个场景:一组无人机和无人地面车辆持续监控环境。无人地面车辆偶尔会被人类接管,绕道为耗尽的无人机充电。目标是为无人地面车辆选择路线,以便它们能够有效地监测环境,同时降低干预成本。前者被建模为单调子模函数,而后者是 UGV 路线的线性函数。我们考虑这样一种情况:前者已知,但后者取决于背景,例如必须了解的风和地形条件。通常,我们首先学习预测成本函数,然后解决优化问题。然而,预测中使用的损失函数可能与我们寻找良好路线的最终目标不一致。我们提出了一种面向 emph 决策的学习框架,该框架将任务优化作为预测阶段的可微层。为了使非单调子模函数的任务优化可微,我们提出了可微成本缩放贪心算法。我们通过数值模拟证明了所提出框架的有效性。

Service Pet Robot Design: Queer, Feminine and Sexuality Aspects
Authors Anna Maria Velentza, Antigoni Tsagkaropoulou
机器人和人工智能在社会中的融合引起了人们对歧视和偏见的担忧,这些歧视和偏见主要影响到代表性不足的群体,包括酷儿和女性人物。社交辅助机器人 SAR 被用于各种服务和陪伴角色,在与人类互动时遵循社会规范,并且似乎在许多角色中都是有益的,例如宠物治疗机器人。为了促进包容性和代表性,机器人设计应融入酷儿和女性特征。作为对这些担忧的回应,一款名为 BB 的宠物机器人是采用多学科和包容性方法设计的。 BB 在酷儿建筑和美学环境中呈现,强调人类机器人交互中的技术触感、脆弱性和性行为。通过问卷调查和焦点小组评估观众对机器人和女性研究人员的看法。

Using Focus Group Interviews to Examine Biased Experiences in Human-Robot-Interaction
Authors Lukas Erle, Lara Timm, Carolin Stra mann, Sabrina C. Eimler
当在公共场所部署社交机器人等交互式代理时,它们需要能够与不同的受众进行交互,每个成员都具有个体多样性特征和交互系统的先前经验。为了迎合这些不同的倾向,重要的是要检查公民使用交互式系统的经历以及这些经历如何可能对此类系统产生偏见。为了分析这些偏见引发的经历,我们进行了焦点小组访谈,以了解公民的个人歧视经历、他们对在公共场所部署社交机器人的态度以及支持和反对的论点。

RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and Comfortable Autonomous Driving
Authors Tong Zhao, Chenfeng Xu, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan, Yintao Wei
本文解决了智能机器人系统(特别是自动驾驶汽车)对安全性和舒适性日益增长的需求,其中路况在整体驾驶性能中发挥着关键作用。例如,重建路面有助于增强运动规划和控制系统对车辆响应的分析和预测。我们介绍了路面重建数据集 RSRD,这是一个真实世界、高分辨率、高精度的数据集,通过专门的平台在不同的驾驶条件下收集。它涵盖了常见的道路类型,包含约 16,000 对立体图像、原始点云和地面真实深度视差图,并具有精确的后处理管道以确保其质量。基于RSRD,我们进一步建立了一个通过深度估计和立体匹配恢复道路轮廓的综合基准。使用各种最先进方法的初步评估揭示了我们数据集的有效性和任务的挑战,强调了 RSRD 作为先进技术的宝贵资源的巨大机会,例如实现安全自动驾驶的多视图立体。

Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
Authors Vikrant Dewangan, Tushar Choudhary, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, K. Madhava Krishna
Talk2BEV 是一种大型视觉语言模型 LVLM 接口,用于自动驾驶环境中鸟瞰 BEV 地图。虽然自动驾驶场景的现有感知系统主要集中在预定义的封闭对象类别和驾驶场景集,但 Talk2BEV 将通用语言和视觉模型的最新进展与 BEV 结构化地图表示相结合,消除了对特定任务模型的需求。这使得单个系统能够满足各种自动驾驶任务,包括视觉和空间推理、预测交通参与者的意图以及基于视觉提示的决策。我们在大量场景理解任务上广泛评估 Talk2BEV,这些任务依赖于解释自由形式自然语言查询的能力,以及将这些查询基于嵌入到语言增强 BEV 地图中的视觉上下文的能力。

Fast Localization and Tracking in City-Scale UWB Networks
Authors Nakul Garg, Irtaza Shahid, Ramanujan K Sheshadri, Karthikeyan Sundaresan, Nirupam Roy
网络节点的本地化是新兴应用中的一个基本问题,包括急救人员导航、自动化生产线、车辆和无人机导航、资产导航和跟踪、物联网和 5G 通信网络。在本文中,我们提出了 Locate3D,这是一种用于大型网络中对等节点定位和方向估计的新颖系统。与传统的仅范围方法不同,Locate3D 引入了到达角 AoA 数据作为附加的网络拓扑约束。该系统解决了三个关键挑战,它使用角度将所需的测量数量减少了 4 倍,并联合使用距离和角度数据进行位置估计。我们开发了一种生成树方法,用于快速位置更新,并确保输出图是刚性的且唯一可实现的,即使在遮挡或弱连接区域也是如此。 Locate3D 在不影响准确性的情况下将延迟减少了多达 75,超越了仅标准范围的解决方案。

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
Authors Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Tianyu Liu, Baobao Chang
在这项研究中,我们探索了多模态大型语言模型 MLLM 在改进代理的具体决策过程中的潜力。虽然大型语言模型法学硕士因其先进的推理技能和广泛的世界知识而被广泛使用,但像 GPT4 Vision 这样的 MLLM 提供了增强的视觉理解和推理能力。我们研究最先进的 MLLM 是否可以以端到端的方式处理具体决策,以及 LLM 和 MLLM 之间的合作是否可以增强决策。为了解决这些问题,我们引入了一个名为 PCA EVAL 的新基准,它从感知、认知和行动的角度评估具体决策。此外,我们提出了 HOLMES,这是一个多代理合作框架,允许法学硕士利用 MLLM 和 API 来收集多模式信息以做出明智的决策。我们在基准上比较端到端体现决策和 HOLMES,发现 GPT4 Vision 模型表现出强大的端到端体现决策能力,在平均决策准确性方面优于 GPT4 HOLMES 3 。然而,这种性能是最新 GPT4 Vision 模型独有的,比开源最先进的 MLLM 高出 26 。

OceanGPT: A Large Language Model for Ocean Science Tasks
Authors Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Guozhou Zheng, Huajun Chen
鉴于海洋覆盖了地球 70 多个表面,海洋科学深入研究作为生命和生物多样性宝库的海洋,具有重要意义。最近,大型语言模型法学硕士的进步改变了科学范式。尽管在其他领域取得了成功,但目前的法学硕士往往无法满足海洋学家等领域专家的需求,而且法学硕士在海洋科学方面的潜力尚未得到探索。其内在原因可能是海洋数据的巨大性和复杂性以及对更高粒度和丰富知识的需求。为了缓解这些问题,我们引入了OceanGPT,这是海洋领域第一个法学硕士,它是各种海洋科学任务的专家。我们提出了DoInstruct,一种自动获取大量海洋领域指令数据的新颖框架,它基于多智能体协作生成指令。此外,我们构建了第一个海洋学基准OceanBench,以评估法学硕士在海洋领域的能力。通过综合实验,OceanGPT不仅表现出了较高水平的海洋科学任务知识专长,而且初步获得了海洋技术的体现智能能力。

Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI
Authors Emily Jin, Jiaheng Hu, Zhuoyi Huang, Ruohan Zhang, Jiajun Wu, Li Fei Fei, Roberto Mart n Mart n
我们提出了 Mini BEHAVIOR,这是一种新的嵌入式人工智能基准,它要求智能体使用推理和决策技能来解决类似于人类日常挑战的复杂活动。 Mini BEHAVIOR 环境是一种快速、现实的 Gridworld 环境,具有快速原型设计和易用性的优点,同时保留了复杂的具体 AI 基准中的物理现实性和复杂性的象征性水平。我们引入了程序生成等关键功能,以能够创建无数的任务变化并支持开放式学习。 Mini BEHAVIOR 提供了原始 BEHAVIOR 基准中各种家务任务的实现,以及用于数据收集和强化学习代理培训的起始代码。从本质上讲,Mini BEHAVIOR 提供了一个快速、开放式的基准,用于评估具体人工智能中的决策和规划解决方案。它作为用户友好的研究切入点,促进解决方案的评估和开发,简化其评估和开发,同时推进实体人工智能领域的发展。

Online POMDP Planning with Anytime Deterministic Guarantees
Authors Moran Barenboim, Vadim Indelman
在现实世界场景中运行的自主代理经常遇到不确定性并根据不完整的信息做出决策。不确定性下的规划可以使用部分可观察马尔可夫决策过程 POMDP 在数学上形式化。然而,为 POMDP 寻找最佳计划的计算成本可能很高,并且仅适用于小型任务。近年来,近似算法(例如树搜索和基于样本的方法)已成为解决较大问题的最先进的 POMDP 求解器。尽管它们很有效,但由于它们对采样的依赖,这些算法仅提供对最优解的概率且通常是渐近的保证。为了解决这些限制,我们得出了更容易获得的简化解决方案与理论上最优解决方案之间的确定性关系。首先,我们推导选择观察子集进行分支的界限,同时计算每个后节点的完整置信度。然后,由于完整的信念更新可能需要计算,因此我们扩展界限以支持状态和观察空间的减少。我们演示了如何将我们的保证与现有的最先进的求解器集成,该求解器对状态和观察的子集进行采样。因此,返回的解决方案相对于最优策略具有确定性界限。

Wellbeing in Future Mobility: Toward AV Policy Design to Increase Wellbeing through Interactions
Authors Shashank Mehrotra, Zahra Zahedi, Teruhisa Misu, Kumar Akash
自动驾驶汽车 AV 技术和微型移动设备的最新进展有望为未来的移动使用带来革命性的变化。这些进步也对人类自动驾驶交互提出了挑战。为了确保这些新移动方式的顺利采用,有必要评估人们过去的社交互动经验和看法如何影响自动驾驶移动方式的交互。这项研究根据个人的行为、先前的经验、社交互动感知以及与其他道路使用者的二元互动来识别和估计个人的福祉。我们设计了一项基于在线视频的用户研究,收集并分析了 300 名参与者的反馈,以调查对个人福祉的影响。机器学习模型旨在预测幸福感的变化。基于该模型的最佳策略允许自动驾驶汽车采取明智的行动,以实现与其他道路使用者的让行行为,从而提高用户的福祉。

Optimal Impact Angle Guidance via First-Order Optimization Under Nonconvex Constraints
Authors Gyubin Park, Da Hoon Jeong, Jong Han Kim
大多数最优制导问题可以表述为非凸优化问题,可以通过松弛、凸化或线性化来间接解决。虽然这些方法保证收敛到修正问题的全局最优,但所获得的解可能不能保证全局最优,甚至不能保证原始非凸问题的可行性。在本文中,我们提出了一种计算最优制导方法,可以直接处理在制定制导问题时遇到的非凸约束。所提出的计算指导方法交替解决最小二乘问题并将解决方案投影到非凸可行集上,这些解决方案快速收敛到可行的次优解,或者有时收敛到全局最优解。

A First-Order Method with Expansive Projection for Optimal Powered Descent Guidance
Authors Jiwoo Choi, Jong Han Kim
本文介绍了一种求解最优动力下降制导 PDG 问题的一阶方法,该方法直接处理与质量变化的最大和最小推力界限相关的非凸约束以及推力矢量的指向角约束。通常通过无损凸化 LCvx 来规避这个问题,它将非凸可行集提升到更高维的凸集,并通过指数函数定义的另一个非凸可行集的线性近似。然而,当从高维空间获得的解投影回原始空间时,这种方法有时会导致不可行的解,特别是当问题涉及非最佳飞行时间时。此外,泰勒级数近似引入了近似误差,该误差随着飞行时间和与参考轨迹的偏差而增加。在本文中,我们介绍了一种一阶方法,该方法利用非凸集上的正交投影,从而允许扩展投影 ExProj 。我们证明: 1 即使对于传统技术失效的非最佳飞行时间情况,这种方法也能产生具有更好性能的可行解决方案,并且 2 所提出的方法补偿了泰勒级数近似产生的线性化误差。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值