强化学习算法依据马尔科夫的决策过程主要分为两大类,分别是基于模型的强化学习算法(动态规划法等)和无模型的强化学习算法(蒙特卡洛算法等)。这些强化学习算法的核心思想是学习者通过自身的不断学习最终使得整个学习过程中获得的奖惩值达到最大(既通过行为选择,最终获得最优策略)。
行为选择的方主要有两种方法:
(1)贪婪算法:即通过选择某一行为使得获得的行为值函数达到做大,如果最大的值不唯一,则从中进行随机选择,即。
(2)-贪婪方法:-贪婪方法改善了贪婪算法存在的不足,因为贪婪算法每次选择行为,都要选当前的行为值函数达到最大的行为,但是这样会使得选择的行为的种类较少,就会出现良好总可能性,第一种会很快使得状态值函数收敛,第二种情况则会可能使得状态值函数一直不会收敛(虽然第二种情况的可能性较小,但是仍然是有一些不足),所以可以采取-贪婪方法。这种方法有两种选择行为的规则,第一种规则是随机等概率地从可选的行为中选择其中一种,第二种规则贪婪方法相同。-贪婪方法的具体实现方式为:每隔一段时间就会对两种规则进行选择,第一种规则发生的概率为(通常为一个很小的数值),第二种规则发生的概率为,且该规则只对一次的行为选择有效。剩余的时间都将采用第二种规则。
获得最优策略的方式主要有三种:策略迭代,值迭代和策略搜索
策略迭代和值迭代又属于基于值函数估计的方法(当状态空间和动作空间都是离散的且不能太大,值函数可以用一张表格来表示,也叫表格型强化学习算法)或者基于值函数逼近的方法
强化学习算法的总结
最新推荐文章于 2024-05-24 03:49:26 发布