【用于VTOL的DDPG DQN PD控制器】基于深度强化学习的垂直起降系统模型控制器设计(Simulink、Matlab代码实现)

  💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。

⛳️座右铭:行百里者,半于九十。

📋📋📋本文目录如下:🎁🎁🎁

目录

 ⛳️赠与读者

💥1 概述

📚2 运行结果

🎉3 参考文献

🌈4 Matlab代码、Simulink仿真


 ⛳️赠与读者

👨‍💻做科研,涉及到一个深在的思想系统,需要科研者逻辑缜密,踏实认真,但是不能只是努力,很多时候借力比努力更重要,然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学,什么是电的时候,不要觉得这些问题搞笑。哲学是科学之母,哲学就是追究终极问题,寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览,免得骤然跌入幽暗的迷宫找不到来时的路,它不足为你揭示全部问题的答案,但若能让人胸中升起一朵朵疑云,也未尝不会酿成晚霞斑斓的别一番景致,万一它居然给你带来了一场精神世界的苦雨,那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

     或许,雨过云收,神驰的天地更清朗.......🔎🔎🔎

💥1 概述

在这项研究中,深度确定性策略梯度(DDPG)算法由一个人工神经网络和强化学习的结合被应用于垂直起飞和着陆(VTOL)系统模型,以控制俯仰角。这个选择该算法是因为传统的控制算法,如比例控制算法积分微分(PID)控制器,其并非总是能够产生合适的控制信号消除干扰和对所考虑系统的有害环境影响。在这项研究中,深度确定性策略梯度(DDPG)算法由人工神经网络和强化学习的组合组成,被应用于垂直起降(VTOL)系统模型,以控制俯仰角。选择该算法是因为传统的控制算法,如比例积分微分(PID)控制器,不能总是产生合适的控制信号,消除所考虑系统上的干扰和不需要的环境影响。为了控制系统,在Simulink环境中,通过DDPG算法在VTOL系统的数学模型中进行了正弦参考训练,该算法具有连续的动作空间,来自深度强化学习方法,可以产生控制动作值,该值采用的结构可以根据确定的奖励函数最大化奖励,以达到控制的目的,并具有人工神经网络的泛化能力。对于正弦参考和恒定参考,将俯仰角(指定VTOL系统的输出)的跟踪误差性能与常规PID控制器的性能进行了比较,包括均方误差、积分平方误差、积分绝对误差、百分比超调和稳定时间。通过模拟研究呈现了获得的结果。

📚2 运行结果

版本2021a

部分代码:
%Code is used to train the DQN agent
clear;clc;

% load system
mdl = 'DQN_VTOL_Plant_Simulink' ; 
open_system(mdl);


%initialize observation
obsInfo = rlNumericSpec([3 1]);
    %'LowerLimit',-inf,...
    %'UpperLimit',inf);
obsInfo.Name = 'observations';
obsInfo.Description = 'error';
numObservations = obsInfo.Dimension(1);

%initialize action space
actInfo = rlFiniteSetSpec(0.4:0.01:0.8);
actInfo.Name = 'Voltage';
actInfo.Description = 'Z Altitude';
numActions = actInfo.Dimension(1);

%simulate system
env = rlSimulinkEnv('DQN_VTOL_Plant_Simulink','DQN_VTOL_Plant_Simulink/RL Agent',obsInfo,actInfo);

% set funtction
env.ResetFcn = @(in)localResetFcn(in);

%set time step and max simulation time
Ts = 0.01;
Tf = 20;
rng(0);

%desing network
statePath = [ 
    featureInputLayer(numObservations,'Normalization','none','Name','observation')
    fullyConnectedLayer(400,'Name','CriticStateFC1')
    reluLayer('Name', 'CriticRelu1')
    fullyConnectedLayer(300,'Name','CriticStateFC2')];
actionPath = [
    featureInputLayer(numActions,'Normalization','none','Name','action')
    fullyConnectedLayer(300,'Name','CriticActionFC1','BiasLearnRateFactor',0)];
commonPath = [
   additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','CriticOutput')];

🎉3 参考文献

文章中一些内容引自网络,会注明出处或引用为参考文献,难免有未尽之处,如有不妥,请随时联系删除。

🌈4 Matlab代码、Simulink仿真

资料获取,更多粉丝福利,MATLAB|Simulink|Python资源获取

                                                           在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值