Monto Carlo估计动作价值(action values)
@(Machine Learning)
名词翻译
- action 行动,动作
- action values 动作价值
- state values 状态价值
- policy 策略
总体思路
总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。
而当Model是已知的,仅仅利用状态价值就足够决定策略。
Model未知时,只有状态价值无法决定策略。
动作价值估计
必须估计出每一个行动的价值,才可以决定选出最优策略。而行动本身是in状态的。
–> 问题转化为估计 qπ(s,a) .
也就是说,需要知道每一个状态和行动的组合的价值。
问题
在取样中,不是所有的 (s,a) 对都会被保证用上,因此,就不能保证估计所有的 qπ(s,a) .
比如说,在确定的策略下去估计行动价值,每一个状态下对应的行动选择是固定的,这样就像是选择了一条直接走到终点的路径,很多 (s,a) 对就用不上。
而一旦很多 (s,a) 用不上,蒙特卡罗方法的核心目标:求取returns的均值就无法实现。
解决思路
共有两种解决的办法:
- exploring starts 探索式开始法
- 选用随机策略,保证每一个 (s,a) 的概率大于0
探索式开始法的意思就是:在多次抽取样本是,开头要保证所有的 (s,a) 对被用上。
随机策略保证每个 (s,a) 出现的概率大于0,也可以保证在多次试验中出现所有的 (s,a) 对。
其中,探索式开始法,不能很好处理实际的与环境交互的问题。随机策略的使用要更广泛一些。