基于Qlearning的室内路径规划控制算法的matlab程序

最新推荐文章于 2024-06-12 09:49:03 发布

fpga和matlab

最新推荐文章于 2024-06-12 09:49:03 发布

阅读量3.8k

点赞数 2

分类专栏：板块3:AI/神经网络/深度学习 MATLAB 文章标签： Qlearning 路径规划机器学习

本文链接：https://blog.csdn.net/ccsss22/article/details/115423219

版权

MATLAB 同时被 2 个专栏收录

1603 篇文章 1618 订阅

订阅专栏

板块3:AI/神经网络/深度学习

231 篇文章 58 订阅

订阅专栏

1.问题描述：

假设我们的楼层内共有5个房间，房间之间通过一道门相连，正如下图所示。我们将房间编号为房间0到房间4，楼层的外部可以被看作是一间大房间，编号为5。注意到房间1和房间4可以直接通到房间5。可能在任意一间房间中放置一个智能体（机器人），并期望该智能体能够从该房间开始走出这栋楼（可以认为是我们的目标房间）。换句话说，智能体的目的地是房间5。为了设置这间房间作为目标，我们为每一道门（节点之间的边）赋予一个奖励值。能够直接通到目标房间的门赋予一及时奖励值100，而其他的未与目标房间直接相连的门赋予奖励值0。因为每一道门都有两个方向，因此，每一道门在图中将描述为两个箭头。

2.部分程序：

% Two input: R and gamma
% immediate reward matrix;
% row and column = states; -Inf = no door between room
R=[-inf,-inf,-inf,-inf, 0, -inf;
-inf,-inf,-inf, 0,-inf, 100;
-inf,-inf,-inf, 0,-inf, -inf;
-inf, 0, 0,-inf, 0, -inf;
0,-inf,-inf, 0,-inf, 100;
-inf, 0,-inf,-inf, 0, 100];

gamma=0.80; % learning parameter

q=zeros(size(R)); % initialize Q as zero,q的行数和列数等于矩阵R的。
q1=ones(size(R))*inf; % initialize previous Q as big number
count=0; % counter

for episode=0:50000
% random initial state
y=randperm(size(R,1));%产生1到6的随机数%a=size(R,1)把矩阵R的行数返回给a,b=size(R,2)把矩阵R的列数返回给b
state=y(1); %取1到6的随机数的第一个数

% select any action from this state
x=find(R(state,:)>=0); % find possible action of this state.返回矩阵R第state行所有列中不小于零的数据的下标
if size(x,1)>0,
x1=RandomPermutation(x); % randomize the possible action
x1=x1(1); % select an action
end

qMax=max(q,[],2);
q(state,x1)= R(state,x1)+gamma*qMax(x1); % get max of all actions
state=x1;

% break if convergence: small deviation on q for 1000 consecutive
if sum(sum(abs(q1-q)))<0.0001 & sum(sum(q >0))
if count>1000,
episode % report last episode
break % for
else
count=count+1; % set counter if deviation of q is small
end
else
q1=q;
count=0; % reset counter when deviation of q from previous q is large
end
end

%normalize q
g=max(max(q));
if g>0,
q=100*q/g;
end

3.仿真结论：

D28

fpga和matlab

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
1
评论
基于Qlearning的室内路径规划控制算法的matlab程序

1.问题描述：假设我们的楼层内共有5个房间，房间之间通过一道门相连，正如下图所示。我们将房间编号为房间0到房间4，楼层的外部可以被看作是一间大房间，编号为5。注意到房间1和房间4可以直接通到房间5。可能在任意一间房间中放置一个智能体（机器人），并期望该智能体能够从该房间开始走出这栋楼（可以认为是我们的目标房间）。换句话说，智能体的目的地是房间5。为了设置这间房间作为目标，我们为每一道门（节点之间的边）赋予一个奖励值。能够直接通到目标房间的门赋予一及时奖励值100，而其他的未与目标房间直接相连的.
复制链接

扫一扫