强化学习——双臂攀爬机构运动控制

最新推荐文章于 2024-07-24 17:44:22 发布

Aaronworry

最新推荐文章于 2024-07-24 17:44:22 发布

阅读量884

点赞数 5

分类专栏： DeepLearning ReinforcementLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34062822/article/details/86596792

版权

本文介绍了使用DDPG和DQN算法控制双臂攀爬机器人进行运动控制的实验。通过DDPG训练固定下臂和上臂的运动，再用DQN建立宏观决策模型，实现精准的攀爬策略。实验结果显示，策略准确度达到95%，但也存在一些不足，如运动突兀和决策失误，提出了改进方案。

摘要由CSDN通过智能技术生成

使用强化学习控制双臂攀爬机构的运动学模型

源码地址
演示效果
测试环境
概述
核心内容
实验过程及效果
不足与改进
参考文献

源码地址

链接: https://github.com/aaronworry/two-arms-climb

学习使用时备注出处即可

演示效果

链接: https://www.bilibili.com/video/av41743426/?p=1

测试环境

CPU：Intel i7-4710MQ
RAM：16G
显卡：GTX 850M

概述

搭建了一个双臂攀爬的运动学模型，分别用DDPG训练了固定下臂，移动上臂和固定上臂，移动下臂的运动控制。然后使用DQN建立了宏观运动决策模型。

核心内容

机器人运动学

通常将表示相邻的两连杆相对关系的矩阵称为A矩阵。

一般需要两个参数来描述一个连杆
- 公法线距离 $a_i$
- 垂直于 $a_i$ 所在平面内两轴的夹角 $\alpha_i$ 。
同样相邻两连杆的关系也需要两个参数
- 两连杆的相对位置 $d_i$
- 两连杆的法线夹角 $\theta_i$ 。

一般用两个旋转和两个平移来表示相邻连杆的相对位置关系。
在此环境下，连杆只有3个自由度，且 $a_i=l_i, \alpha_i=0,d_i=l_i,\theta_i=\theta_{相邻连杆的夹角}$
因此可以只用一个旋转和一个平移表示。设Z轴为运动平面的法向量，X轴为连杆的方向。因此连杆的变换矩阵为
$A_i=Rot(z,\theta_z)\cdot Trans(l_i,0,0)$

最低0.47元/天解锁文章

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。