Q_Learning算法的一个简单的应用。

最新推荐文章于 2024-05-30 09:00:17 发布

置顶

「已注销」

最新推荐文章于 2024-05-30 09:00:17 发布

阅读量1.5k

点赞数 1

文章标签： Q_Learning java

本文链接：https://blog.csdn.net/weixin_38358654/article/details/75206299

版权

想必很多人对Q_Learning比较熟悉。但是Q_Learning重在Learning。那么Q_Learning以何种方式去Learning呢？我们可以想象一下一个正在森林中摸索前进的迷途小羔羊。周围能见度很低，只能走一步看一步。它无法预知距离自己太远的山路，但是它记忆力比较好，曾经走过的路，遇到过的环境它都记得。那么这些“经验”却是小羔羊能够不断摸索前进的宝贵“知识”，羔羊遇到了与之前碰到的相似的环境或者一样的环境的时候，它会选择它的记忆中能够使得自己顺利通过的走法，因为之前这样走没有什么问题，那么现在还是像这样走，问题也许也不太大，虽然可能还会有更好的走法（这需要羔羊进一步的学习。）Q_Learning算法与之一样，一个陌生的环境中，我们往往只关心我们所处的当前环境下要采取怎样的行动，这个行动使得我们获益最大而不考虑更远的情况。

下面就一篇博客上提到的英文原文（Step-By-Step Tutorial 点击打开链接）中提到的一个具体的场景为例，来举个Q_Learning算法的实际应用的例子。英文原文大家可以在网上直接下载，原文中只给出算法原型，以及部分分析过程，以及最后的收敛状态。并没有给出具体的实现程序。学过算法的人应该知道，能不能根据别人的算法编制出能够解决实际问题的程序，在某种程度上能够体现出子集对该算法的理解程度。所以对于比较熟悉Q_Learning算法的读者来说，这篇博客纯属扯淡，但是对于刚刚入门，想要学习并且真正理解Q_Learning算法的人来说可能还有点用。我使用Q_Learning算法基本上实现了Step-By-Step Tutorial中提出的简单场景中提炼出来的基本问题。java代码以及运行结果如下：

package Q_Learning;
public class Q_Learning {
private int[][] R;//当前状态转移到下一状态下的reward
private int[][] Q;//某个状态下，采取某个动作之后可预见的将来的回报，评估当前状态下动作选择的好坏。
public int[][] getR() {
return R;
}
public void setR(int[][] r) {
R = r;
}
public int[][] getQ() {
return Q;
}
public void setQ(int[][] q) {
Q = q;
}
//获取R值
public int GetCertainR(int Rx,int Ry){
return R[Rx][Ry];
}
//获取Q值
public int GetCerTainQ(int Q

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Q_Learning算法的一个简单的应用。

想必很多人对Q_Learning比较熟悉。但是Q_Learning重在Learning。那么Q_Learning以何种方式去Learning呢？我们可以想象一下一个正在森林中摸索前进的迷途小羔羊。周围能见度很低，只能走一步看一步。它无法预知距离自己太远的山路，但是它记忆力比较好，曾经走过的路，遇到过的环境它都记得。那么这些“经验”却是小羔羊能够不断摸索前进的宝贵“知识”，羔羊遇到了与之前碰到的相似
复制链接

扫一扫