【用于VTOL的DDPG DQN PD控制器】基于深度强化学习的垂直起降系统模型控制器设计（Simulink、Matlab代码实现）

科研_研学社

于 2024-09-27 09:30:53 发布

阅读量883

点赞数 12

文章标签： matlab 人工智能开发语言

本文链接：https://blog.csdn.net/qq_57231208/article/details/142585244

版权

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

⛳️赠与读者

💥1 概述

📚2 运行结果

🎉3 参考文献

🌈4 Matlab代码、Simulink仿真

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时候，不要觉得这些问题搞笑。哲学是科学之母，哲学就是追究终极问题，寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能让人胸中升起一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它居然给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥1 概述

在这项研究中，深度确定性策略梯度（DDPG）算法由一个人工神经网络和强化学习的结合被应用于垂直起飞和着陆（VTOL）系统模型，以控制俯仰角。这个选择该算法是因为传统的控制算法，如比例控制算法积分微分（PID）控制器，其并非总是能够产生合适的控制信号消除干扰和对所考虑系统的有害环境影响。在这项研究中，深度确定性策略梯度（DDPG）算法由人工神经网络和强化学习的组合组成，被应用于垂直起降（VTOL）系统模型，以控制俯仰角。选择该算法是因为传统的控制算法，如比例积分微分（PID）控制器，不能总是产生合适的控制信号，消除所考虑系统上的干扰和不需要的环境影响。为了控制系统，在Simulink环境中，通过DDPG算法在VTOL系统的数学模型中进行了正弦参考训练，该算法具有连续的动作空间，来自深度强化学习方法，可以产生控制动作值，该值采用的结构可以根据确定的奖励函数最大化奖励，以达到控制的目的，并具有人工神经网络的泛化能力。对于正弦参考和恒定参考，将俯仰角（指定VTOL系统的输出）的跟踪误差性能与常规PID控制器的性能进行了比较，包括均方误差、积分平方误差、积分绝对误差、百分比超调和稳定时间。通过模拟研究呈现了获得的结果。

📚2 运行结果

版本2021a

部分代码：
%Code is used to train the DQN agent
clear;clc;

% load system
mdl = 'DQN_VTOL_Plant_Simulink' ;
open_system(mdl);

%initialize observation
obsInfo = rlNumericSpec([3 1]);
%'LowerLimit',-inf,...
%'UpperLimit',inf);
obsInfo.Name = 'observations';
obsInfo.Description = 'error';
numObservations = obsInfo.Dimension(1);

%initialize action space
actInfo = rlFiniteSetSpec(0.4:0.01:0.8);
actInfo.Name = 'Voltage';
actInfo.Description = 'Z Altitude';
numActions = actInfo.Dimension(1);

%simulate system
env = rlSimulinkEnv('DQN_VTOL_Plant_Simulink','DQN_VTOL_Plant_Simulink/RL Agent',obsInfo,actInfo);

% set funtction
env.ResetFcn = @(in)localResetFcn(in);

%set time step and max simulation time
Ts = 0.01;
Tf = 20;
rng(0);

%desing network
statePath = [
featureInputLayer(numObservations,'Normalization','none','Name','observation')
fullyConnectedLayer(400,'Name','CriticStateFC1')
reluLayer('Name', 'CriticRelu1')
fullyConnectedLayer(300,'Name','CriticStateFC2')];
actionPath = [
featureInputLayer(numActions,'Normalization','none','Name','action')
fullyConnectedLayer(300,'Name','CriticActionFC1','BiasLearnRateFactor',0)];
commonPath = [
additionLayer(2,'Name','add')
reluLayer('Name','CriticCommonRelu')
fullyConnectedLayer(1,'Name','CriticOutput')];