Monto Carlo估计动作价值(action values)
@(Machine Learning)
名词翻译
- action 行动,动作
- action values 动作价值
- state values 状态价值
- policy 策略
总体思路
总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。
而当Model是已知的,仅仅利用状态价值就足够决定策略。
Model未知时,只有状态价值无法决定策略。
动作价值估计
必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。
–> 问题转化为估计 qπ(s,a) .
也就是说,需要知道每一个状态和行动的组合的价值。
问题
在取样中,不是所有的