【优化控制】基于matlab策略迭代算法求解重构机械臂容错跟踪控制优化问题【含Matlab源码 2682期】

✅博主简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,Matlab项目合作可私信。
🍎个人主页:海神之光
🏆代码获取方式:
海神之光Matlab王者学习之路—代码获取方式
⛳️座右铭:行百里者,半于九十。

更多Matlab仿真内容点击👇
Matlab图像处理(进阶版)
路径规划(Matlab)
神经网络预测与分类(Matlab)
优化求解(Matlab)
语音处理(Matlab)
信号处理(Matlab)
车间调度(Matlab)

⛄一、策略迭代算法

强化学习有两种常见迭代训练算法:策略迭代算法和值迭代算法。本文中主要讲述策略迭代算法。

先从一个简答的问题开始,下图为一个四方格子,每个位置的状态空间分别为{1, 2, 3, 4}, 其中 3 的位置是个陷阱, 4的位置有个金币。有一个机器人从状态1的位置开始寻找金币。落入陷阱的回报为-1,找到金币的回报为1,在其他位置间移动回报为0,可选的动作空间为{上,下,左,右}, 通过这个简单的问题,来学习强化学习的学习原理。
在这里插入图片描述
强化学习的学习过程,个人理解就是通过不断的尝试,去更新每个状态的值函数(每个状态的值代表了当前状态的优劣,如果状态值很大,从其他状态选择一个动作,转移到该状态便是一个正确的选择),然后通过更新后的值函数去动态的调整策略,在调整策略后,又去更新值函数,不断的迭代更新,最后训练完成一个满足要求的策略。在这个过程中,抽象出两个主要的过程,第一个叫策略评估,第二个叫策略改善。

针对上面给出的简单问题,先说明一些简单的概念:

每个状态的值函数:
代表机器人处于该状态时的优劣值。

针对问题的当前策略:
代表机器人处于某状态时,选择的下一步动作。对于选择的下一步动作,可以是确定式的,比如当机器人处于1位置的时候,确定的只选择往右走。也可以是概率式的,可以0.5的概率选择往右走, 0.5的概率选择往下走。当然确定式策略选择是概率式的策略选择的一种特例。下文中采用确定式策略进行描述

策略评估:
策略评估就是通过某种方式,计算状态空间中每个状态的值函数。由于状态空间之间存在很多转移关系,要直接计算某个状态的值函数,是很困难的,一般采用
迭代方法。

策略改善:
对策略的改善,即通过当前拥有的信息,对当前策略进行优化,修改当前策略。

############################## 策略评估的过程
初始化的策略和值函数。
在这里插入图片描述对于这个简单的例子,通过一步计算便得到了稳定的值函数,但是对于大多数的问题,都需要通过多步的迭代,才能得到稳定的值函数。

############################## 策略改善的过程
对于这个简单的例子,采用贪心的方式对策略进行改善,通过上一步策略评估过程计算出的稳定的值函数,让每个状态在选择下一步动作的时候,选择使动作收益最大的动作。
在这里插入图片描述
总结
强化学习策略迭代算法的过程就是不断的重复 策略评估 和 策略改善的过程,直到整个策略收敛(值函数和策略不再发生大的变化)

⛄二、部分源代码

clear all
close all
clc

global Q Q1 R l1 l2 wc0 lr P k k1 sita;

k=5;
Q=keye(2);
Q1=k
eye(4);
R=0.1*eye(2);
sita=1;

lr=0.001;
l1=2;
l2=20eye(4);
P=0.6
eye(2);
k1=1;
wc0=[20 30 40 20 30 40 50 40 50 55];

xw0=[1 1 0 0 2 -2 0 0 wc0 0 0];

options = odeset(‘OutputFcn’,@odeplot);
[t,xw]= ode15s(‘plant2’,[0 60],xw0,options);

U=[];
% % config a %%

% y1d=0.4sin(0.3t)-0.1cos(0.5t);
% y2d=0.3cos(0.6t)+0.6sin(0.2t);
% y3d=(3cos((3t)/10))/25 + sin(t/2)/20;
% y4d=(3cos(t/5))/25-(9sin((3*t)/5))/50;
%

% %  config b %%  

y1d=0.2cos(0.5t)+0.2sin(0.4t);
y2d=0.3cos(0.2t)-0.4sin(0.6t);
y3d=(2cos((2t)/5))/25 - sin(t/2)/10;
y4d=-(6cos((3t)/5))/25-(3*sin(t/5))/50;

U=[];
%
for i=1:size(xw,1)
% % config a %%
% x1d=0.4sin(0.3t(i))-0.1cos(0.5t(i));
% x2d=0.3cos(0.6t(i))+0.6sin(0.2t(i));
% x3d=(3cos((3t(i))/10))/25 + sin(t(i)/2)/20;
% x4d=(3cos(t(i)/5))/25 - (9sin((3t(i))/5))/50;
%
% dx1d=(3
cos((3t(i))/10))/25 + sin(t(i)/2)/20;
% dx2d=(3
cos(t(i)/5))/25 - (9sin((3t(i))/5))/50;
% dx3d=cos(t(i)/2)/40-(9sin((3t(i))/10))/250;
% dx4d=-(27cos((3t(i))/5))/250-(3*sin(t(i)/5))/125;

% % config b %%

x1d=0.2cos(0.5t(i))+0.2sin(0.4t(i));
x2d=0.3cos(0.2t(i))-0.4sin(0.6t(i));
x3d=(2cos((2t(i))/5))/25 - sin(t(i)/2)/10;
x4d=-(6cos((3t(i))/5))/25-(3*sin(t(i)/5))/50;

dx1d=0.3cos(0.2t(i))-0.4sin(0.6t(i));
dx2d=-(6cos((3t(i))/5))/25-(3sin(t(i)/5))/50;
dx3d=-cos(t(i)/2)/20-(4
sin((2t(i))/5))/125;
dx4d=(18
sin((3t(i))/5))/125-(3cos(t(i)/5))/250;

dxd=[dx1d;dx2d;dx3d;dx4d];

e1=xw(i,1)-x1d;
e2=xw(i,2)-x2d;
e3=xw(i,3)-x3d;
e4=xw(i,4)-x4d;
e=[e1 e2 e3 e4];

sigma=[e1^2 e1e2 e1e3 e1e4 e2^2 e2e3 e2e3 e3^2 e3e4 e4^2];
d_sigma=[2e1 0 0 0;e2 e1 0 0;e3 0 e1 0;e4 0 0 e1;0 2e2 0 0;0 e3 e2 0;0 e4 0 e2;0 0 2e3 0;0 0 e4 e3;0 0 0 2e4];

% congif a %
%
% Md=[0.36cos(x2d)+0.6066 0.18cos(x2d)+0.1233;
% 0.18cos(x2d)+0.1233 0.1233];
% Cd=[-0.36
sin(x2d)x4d -0.18sin(x2d)x4d;
% 0.18
sin(x2d)(x3d-x4d) 0.18sin(x2d)x3d];
% Nd=[-5.88
sin(x1d+x2d)-17.64sin(x1d);
% -5.88
sin(x1d+x2d)];

⛄三、运行结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]强化学习笔记(二)---- 策略迭代算法

3 备注
简介此部分摘自互联网,仅供参考,若侵权,联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用

生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化

2 机器学习和深度学习方面
卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断

3 图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知

4 路径规划方面
旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化

5 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配

6 无线传感器定位及布局方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化

7 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化

8 电力系统方面
微电网优化、无功优化、配电网重构、储能配置

9 元胞自动机方面
交通流 人群疏散 病毒扩散 晶体生长

10 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海神之光

有机会获得赠送范围1份代码

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值