强化算法学习记录-3

最新推荐文章于 2023-07-10 06:00:57 发布

whf0608

最新推荐文章于 2023-07-10 06:00:57 发布

阅读量232

点赞数

分类专栏：阅读书籍

本文链接：https://blog.csdn.net/wanghaifeng0608/article/details/92801720

版权

阅读书籍专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.3 Q-Learning算法的策略

使用均匀概率选择行为使用方便但到训练的次数增加，均概率体现不出智能的性质。我们人类在做选择时，会先考虑经常使用的行为。之前发生的行为概率越高，选择的可能性越大。如果再某一个状态下，之前做过选择，应尽可能的选择奖励最高的行为，同时还要保持好奇心，对没有使用的行为要保持探索性。探索使可能性变多，有可能发现更好的策略，同时也给系统带来不确定性，我们无法预测将来会发生什么，就行无人机可能碰到障碍物。探索性太小也不好，对于刚开始训练，应该积极去发现未知的状态，不然训练很慢。可以随着不断地学习来降低探索性并且保持一个下限，保持一定的探索性。可还以设置一个探索的上限，保证在系统的承受范围内。

ε-贪婪策略就是一定概率使用贪婪策略，一定概率使用均概率。ε的值越大就更多的使用贪婪策略，使用当前最好的行为。ε值越小就更多的使用均概率，是探索的可能性更大，可以学习到更多的状态。ε-贪婪策略的步骤：

ε的变化可以和已学经验容量与经验容量之比有关系，。均概率选择行为，所有的行为概率相等。在一个陌生的环境下，要做的行为更可能是熟悉的行为，行为概率分布符合高斯分布。设置一个一维数组与行为集合对应，存储行为在实验中出现的概率。再进行探索时可以使用概率较大的行为。为加快学习速度，在每一个状态的行为集合上设置标记，在探索实验室优先从未使用的行为中选取，直至所有行为都学习过。贪婪策略在某一状态是最优的，当整体不一定是最优的如图2.7、图2.8所示：

图2.7 Q表迭代n次后移动示意图

图2.8 Q表迭代n+1次后移动示意图

Q-Learning算法仅需要下一个状态来更新当前状态的Q表，第n步状态的影响至少需要n次迭代才能在当前状态Q表中有所体现。若当前状态更新，之前状态都更新的算法是多步Q-Learning。

whf0608

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化算法学习记录-3

1.3Q-Learning算法的策略使用均匀概率选择行为使用方便但到训练的次数增加，均概率体现不出智能的性质。我们人类在做选择时，会先考虑经常使用的行为。之前发生的行为概率越高，选择的可能性越大。如果再某一个状态下，之前做过选择，应尽可能的选择奖励最高的行为，同时还要保持好奇心，对没有使用的行为要保持探索性。探索使可能性变多，有可能发现更好的策略，同时也给系统带来不确定性，我们无法预测将来会...
复制链接

扫一扫

专栏目录