偏差平方和说明什么_6.7 最大化偏差和double learning

在我们之前所提出的算法中,不管是MC还是TD,一般都遵循广义策略迭代GPI,而在GPI中,为了求得最优策略,在策略提升的时候我们总是使得改进后的策略相对于估计的值函数是贪婪的,所谓贪婪就是最大化的操作。比如Q学习中我们让目标策略的动作为当前状态下动作值函数取得最大的动作。在Sarsa算法中同样也使用了最大化操作。而这个最大化操作会导致严重的正向偏差,我们称之为最大化偏差(maximization bias)。

怎么理解这个正向偏差呢?假设对于一个状态

来说,有很多个动作
可以选择。而每个
真实的值
都为0.但是由于估计偏差或者不确定性导致估计的值
要么大于0,要么小于0.那么对估计值做最大化操作后,就得到了一个正值,显然相对于真实的值0,这是一个正向偏差。

例6.7:最大化偏差举例

考虑如下图所示的一个MDP问题:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值