基于状态值函数的贝尔曼方程:
基于动作值的贝尔曼方程:
马尔可夫决策过程根据环境是否已知可以分为有模型和免模型两类:
其中有模型决策过程可以使用概率函数 和奖励函数
来描述环境(已知),求解过程可以使用动态规划算法;
而免模型决策过程应用在未知环境下,以试错探索的方式,用价值函数 来表示状态好坏,用
函数判断什么状态下采取什么动作能取得最大奖励。
强化的概念:
用下一个状态的价值来更新当前状态的价值。
处理马尔可夫决策过程的三种方法:
时序差分,
动态规划,
蒙特卡洛,
函数更新算法
:
函数更新算法
: