多臂老虎机问题是reward未知的MDP问题中最简单的一种,因为多臂问题不需要规划。也就是只需要估计action (选择哪个手臂)背后的reward的价值,这个action不会影响state的转移(因为任意手臂转一次,一个episode就结束了,我们就可以对选择的手臂背后的估值进行更新)。
Q在马尔科夫过程代表广义状态转移矩阵,也就是P在时间上的微分,或者说状态转移强度矩阵。自然离散状态时刻下,就是差分啦。因为如果对所有action的估值你自信以后,你必然会做出bayes决策,所以最终的策略,每一个action的reward自然应该和你选择它的概率正相关,所以Q矩阵(函数)既可以理解为状态转移概率的时间差分,也可以理解为对策略估值。