Learning a Decentralized Multi-arm Motion Planner基于强化学习的多机械臂运动规划算法

在这里插入图片描述

Abstract

我们提出了一种闭环多臂运动规划器,该规划器具有可扩展性和灵活性。传统的多臂机器人系统依赖于集中的运动规划算法,其运行时间往往随机器人数量呈指数级增长,因此,无法用开环控制来处理动态环境。在本文中,我们利用多智能体强化学习来解决这一问题。在多臂系统中,通过观察机器人的工作空间状态和目标末端执行器姿态,训练一种分散策略来控制其达到目标末端执行器姿态。该策略是使用软演员评论家和来自基于采样的运动规划算法(即BiRRT)的专家演示来训练的。利用经典的规划算法,我们可以提高强化学习算法的学习效率,同时保留神经网络的快速推理时间。由此产生的策略规模是亚线性的,并且可以部署在具有可变团队规模的多臂系统上。由于闭环和分散的公式,我们的方法概括为5-10个多臂系统和动态移动目标(10臂系统的运动规划成功率为90%),尽管只训练了1-4个手臂规划任务与静态目标。
在这里插入图片描述

Note

多机械臂协同应该是个很好的point,但实物实验还是比较考验实验室资源和成本(毕竟要多个机械臂,还要保证机器人之间不会相互碰撞)。仿真实验代码已经开源,但没有包含视频里展示的多机械臂协同抓取。

视频链接:youtube.com/watch?v=GNos793PFG4&feature=emb_logo

paper链接:https://arxiv.org/pdf/2011.02608.pdf

代码链接:https://github.com/columbia-robovision/decentralized-multiarm

基于强化学习智能体合作博弈对抗算法是一种通过让个智能体在复杂的环境中相互协作、竞争,同时通过试错学习来优化策略的技术。它通常涉及以下几个步骤: 1. **环境建模**:每个智能体(agent)观察共享状态并选择动作。环境会对动作作出响应,并给每个智能体返回奖励。 2. **Q-learning 或 SARSA 策略**:使用像 Q-learning(表格形式)或其函数逼近版本如 Deep Q-Networks (DQN) 来估计每个状态下行动的价值。 3. **协同决策**:智能体之间可能通过共享信息、通信或者协商机制协调他们的行为,这取决于所使用的模型(例如MARL中的Centralized Training with Decentralized Execution, CTDE)。 4. **反向传播更新**:根据从环境中得到的反馈,智能体调整它们的行为策略,期望在未来获得更高的回报。 5. **迭代过程**:反复训练,直到达到预设的停止条件,比如一定次数的迭代或累积奖励达到阈值。 实际代码实现会涉及到深度学习库(如TensorFlow或PyTorch),以及用于智能体学习的开源框架,如A3C(Asynchronous Advantage Actor-Critic)、PPO(Proximal Policy Optimization)或QMIX(Quantile Mixing)等。 以下是一个简单的Python伪代码示例: ```python import gym from stable_baselines3 import PPO # 创建环境 env = MultiAgentEnv() # 初始化强化学习模型 model = PPO('MlpPolicy', env) # 训练模型 model.learn(total_timesteps=100000) # 测试模型 obs = env.reset() while True: actions, _states = model.predict(obs) obs, rewards, dones, info = env.step(actions) if any(dones): break ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值