状态价值函数:
表征当前状态的价值。
比如在下围棋时,当前局势的获胜几率。
马尔科夫决策过程:
未来仅依赖于当前状态而与历史状态无关。
即过去状态与未来状态条件独立。
衰减系数γ:
用来对未来的奖励做惩罚;
未来的100元奖励不如当前的100元奖励,未来的奖励会随着时间推移而消失。数学上,有了衰减系数,无需在乎将来太远的奖励(都被指数衰减掉了);
使用衰减系数,我们无需担心状态转移图存在无限循环;
未来的奖励不会提供直接收益;
目标策略函数:
行为的概率分布*行为价值函数 Q
贝尔曼方程:
将价值函数分解为=直接奖励+衰减后的未来奖励
动态规划:
如果概率P或者回报R完全已知,则可以用动态规划迭代地对问题进行求解。如果模型完全已知,则基于贝尔曼方程,可以直接用动态规划计算价值函数,并进行策略改进。包括策略评估、策略改进和策略迭代。
蒙特卡洛方法:
不需要对模型进行建模,但要求完整的一轮样本。通过完整一轮样本(过程)S1,A1,R2,…,St 来求经验回报。并且所有轮必须到达终态。
估计回报等于所有回报在每一轮衰减后的平均值和
时间差分方法:
不需要模型,也不需要完整的样本,而是从每轮的经验中学习。是对蒙特卡洛方法的改进,可以从不完整的一轮数据中学习,因而无须使任务执行到终止态。因此也叫提升法bootstrapping。主要是通过value estimation更新价值函数
MC与TD的对比:
MC方法依赖实际的奖励和完整的回报来