Monto Carlo估计动作价值(action values)

Monto Carlo估计动作价值(action values)

@(Machine Learning)

名词翻译

  • action 行动,动作
  • action values 动作价值
  • state values 状态价值
  • policy 策略

总体思路

总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。

而当Model是已知的,仅仅利用状态价值就足够决定策略

Model未知时,只有状态价值无法决定策略

动作价值估计

必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。

–> 问题转化为估计 qπ(s,a) .

也就是说,需要知道每一个状态和行动的组合的价值。

问题

在取样中,不是所有的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值