向量空间和压缩映射证明
https://zhuanlan.zhihu.com/p/36295613
空间不一定都是有限维向量空间,也可以是函数空间,函数空间里面两个函数的距离可以被定义成相差取绝对值再积分。证明的思路是(1):先找到不动点 (2)再证明唯一性。先假设还有一个不动点而最后指出这个假设的不动点和原来的不动点是一样的,就可以说明唯一
策略估计
https://zhuanlan.zhihu.com/p/68407730
第1步是策略估计,即计算每个状态的价值,任意状态的价值函数定义如下,实际上是一个期望,让状态价值最大化,实际上就是让期望价值最大化。
一部分是到达新状态的即刻奖励的期望,即刻奖励实际上是和新状态相关(网上资料写的是和动作以及新状态相关),所以即刻奖励是明确的,相对第二部分对可视为常数项。
策略更新收敛证明