强化学习算法的总结

强化学习算法依据马尔科夫的决策过程主要分为两大类,分别是基于模型的强化学习算法(动态规划法等)无模型的强化学习算法(蒙特卡洛算法等)。这些强化学习算法的核心思想是学习者通过自身的不断学习最终使得整个学习过程中获得的奖惩值达到最大(既通过行为选择,最终获得最优策略)。
行为选择的方主要有两种方法:
(1)贪婪算法:即通过选择某一行为使得获得的行为值函数达到做大,如果最大的值不唯一,则从中进行随机选择,即。
(2)-贪婪方法:-贪婪方法改善了贪婪算法存在的不足,因为贪婪算法每次选择行为,都要选当前的行为值函数达到最大的行为,但是这样会使得选择的行为的种类较少,就会出现良好总可能性,第一种会很快使得状态值函数收敛,第二种情况则会可能使得状态值函数一直不会收敛(虽然第二种情况的可能性较小,但是仍然是有一些不足),所以可以采取-贪婪方法。这种方法有两种选择行为的规则,第一种规则是随机等概率地从可选的行为中选择其中一种,第二种规则贪婪方法相同。-贪婪方法的具体实现方式为:每隔一段时间就会对两种规则进行选择,第一种规则发生的概率为(通常为一个很小的数值),第二种规则发生的概率为,且该规则只对一次的行为选择有效。剩余的时间都将采用第二种规则。
获得最优策略的方式主要有三种:策略迭代,值迭代和策略搜索
策略迭代和值迭代又属于基于值函数估计的方法(当状态空间和动作空间都是离散的且不能太大,值函数可以用一张表格来表示,也叫表格型强化学习算法)或者基于值函数逼近的方法࿰

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值