基于近端策略优化的Proximal Policy Optimization(PPO)的无人机姿态控制系统的研究——详细版

1.问题描述:

 

        PPO算法是由OpenAI提出的,该算法是一种全新的策略梯度(Policy Gradient)算法,但是传统的策略梯度算法受到步长影响较大,而且很难选择出最优的步长参数,如果训练过程中,新策略和旧策略之间的差异过大将影响最终的学校效果。针对这个问题,PPO算法提出了一种新的目标函数,其可以通过多个训练步骤进行小批量的更新,从而解决了传统策略梯度算法中的步长选择问题。

    

       其将无人机环境所产生的信号作为学习系统的动作的评价指标,其结构上由工作环境W和智能体A两个部分构成。其中智能体A由策略单元P,输入单元I以及强化单元R三个部分构成。其工作模式主要是根据输入单元在感知环境状态之后,做出一个反馈动作并作用到环境中,环境给出一个强化信号,将这个强化后的信号转换为智能体A的输入信号,并经过强化模块将智能体A的新的动作给学习单元,与此同时,智能体A更新策略模块P的知识库。然后进入下一循环过程。并指导系统中做出下一时刻的动作,选择奖励值最大的工作,该动作作为调整无人机姿

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fpga和matlab

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值