强化学习MDP四元组<S,A,P,R>
s:state 状态
a:action 动作
r:reward 奖励
p:probability 状态转移概率
在st时刻选择了at动作时,转移到st+1,而且拿到rt的概率
状态转移概率符合马尔可夫,下一时刻状态取决于当前状态,与之前st-1、st-2都无关
此过程也取决于智能体与环境交互的at(有一个决策的过程在里面) --->马尔可夫决策过程
强化学习MDP四元组<S,A,P,R>
s:state 状态
a:action 动作
r:reward 奖励
p:probability 状态转移概率
在st时刻选择了at动作时,转移到st+1,而且拿到rt的概率
状态转移概率符合马尔可夫,下一时刻状态取决于当前状态,与之前st-1、st-2都无关
此过程也取决于智能体与环境交互的at(有一个决策的过程在里面) --->马尔可夫决策过程