觉得有帮助请点赞关注收藏~~~
马尔可夫决策过程
如果系统的下一个状态s_t+1的概率分布只依赖于它的前一个状态s_t,而与更早的状态无关,则称该系统满足马尔可夫性。即对任意的时间t,对任意的状态s_t、s_t+1,均有下面的条件概率等式:
P(s_t+1│s_t)=P(s_t+1│s_1,s_2,…,s_t)
马尔可夫性完全忽视了过往历史的影响,大大减少了系统建模的复杂度和计算量,是常用的建模简化假定。
随机性策略
用A和S分别表示主体的动作变量和环境的状态变量。用概率来描述主体的随机性策略:
π(a│s)=P(A_t=a│S_t=s)
其中,A_t和S_t分别表示t时刻的主体动作和环境状态。 设共有N种状态,共有M个动作,如果能确定任一具体状态s_i(1≤i≤N)条件下任一具体动作a_j(1≤j≤M)的概率,那么该随机性策略就完全确定了。 用概率来描述环境模型,可表示为条件概率:
P_ss^′^a=P(S_t+1=s^′│S_t=s,A_t=a)
如果能得到从任一状态和任一动作组成的联合条件下任一状态的概率,那么环境模型P_ss^′^a也就确定了。该条件概率也称为环境的状态转移概率。
在指定状态s和动作a时,下一步要进入的状态并不唯一,因此,得到的回报r也不唯一,可用数学期望来描述在指定状态s和动作a时的回报的数学期望为:
R_s^a=E[r^′]=∑_s^′∈S▒P_ss^′^ar^′