Monto Carlo估计动作价值(action values)

Monto Carlo估计动作价值(action values)

@(Machine Learning)

名词翻译

  • action 行动,动作
  • action values 动作价值
  • state values 状态价值
  • policy 策略

总体思路

总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。

而当Model是已知的,仅仅利用状态价值就足够决定策略

Model未知时,只有状态价值无法决定策略

动作价值估计

必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。

–> 问题转化为估计 qπ(s,a) .

也就是说,需要知道每一个状态和行动的组合的价值。

问题

在取样中,不是所有的 (s,a) 对都会被保证用上,因此,就不能保证估计所有的 qπ(s,a) .

比如说,在确定的策略下去估计行动价值,每一个状态下对应的行动选择是固定的,这样就像是选择了一条直接走到终点的路径,很多 (s,a) 对就用不上。

而一旦很多 (s,a) 用不上,蒙特卡罗方法的核心目标:求取returns的均值就无法实现。

解决思路

共有两种解决的办法:

  • exploring starts 探索式开始法
  • 选用随机策略,保证每一个 (s,a) 的概率大于0

探索式开始法的意思就是:在多次抽取样本是,开头要保证所有的 (s,a) 对被用上。

随机策略保证每个 (s,a) 出现的概率大于0,也可以保证在多次试验中出现所有的 (s,a) 对。

其中,探索式开始法,不能很好处理实际的与环境交互的问题。随机策略的使用要更广泛一些。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值