强化学习3——基于强化学习的四足机器人运动控制

一、问题描述

传统的机器人行走控制如图1所示。

                              

                                                                        图1 传统机器人运动控制框图

包括三个环:平衡控制、运动轨迹控制、电机控制。传统的控制需要利用外部的视觉信号以及机器人的传感器获取环境及自身的状态信息,然后进行特征提取,从这些信息中获取有价值的信息,最后控制器根据机器人的外部及内部状态信息,由控制器计算得到控制输出,作用于被控对象。

传统的控制的困难有两个:

(1)需要建立精确的被控对象模型,但这常常难以得到;

(2)非线性控制器设计难度较大,约束条件很多。

基于上述两方面的困境,考虑采用黑盒模型,寻找有无简便的控制策略,是否能实现端到端的控制,即直接利用外部数据实现控制。端到端的结构示意图如图2所示。

                 

                                                                          图2 机器人端到端控制

强化学习具有这种特性,可以解决model-free问题。

                  

                                                                             图3 基于强化学习的机器人端到端控制

二、强化学习

                                

                                                                     图4 典型机器学习算法

强化学习属于第三类机器学习,是在没有数据和标签作用下,通过智能体与环境相互交互,不断试错获得控制策略的一种智能算法。

对于复杂的控制问题,常常会引入深度学习算法,利用深度神经网络可以获得数据特征。

三、如何利用深度强化学习实现机器人运动控制?

3.1 强化学习与控制系统的对应关系

 

                                                          图5 基于深度强化学习实现机器人运动控制

将智能体看作控制策略,将机器人、外部干扰都看作环境。强化学习与控制系统的对应关系如图6所示。

           

                                                               图6 强化学习与控制系统的对应关系

误差/代价函数相当于控制里的最优控制,这一过程由强化学习算法实现,传统的控制策略常用的有LQR等,而强化学习则是使得价值函数最大化。

3.2 利用MATLAB设simulink实现强化学习流程

            

                                                                                      图7 实现步骤

 

3.3 利用仿真模型生成训练数据

         

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 10
    点赞
  • 101
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路漫求索_CUMT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值