MDP:马尔可夫决策过程
Random Variable:随机变量
stochastic Process:随机过程 St t从1到无穷
Markov Progress:马尔可夫过程 具有马尔可夫性质的随机过程
state space Model:状态空间模型 马尔科夫链+状态观测对象
Markov Reward Process:马尔科夫链+奖励函数
MarKov Decision Process:马尔科夫链+奖励函数+Action
S:state set
A:Action set
R:Reward set
另外学习了MDP的基本概念,学习了MDP中的动态特性,目前对动态特性的理解还不够深刻,想自己推导一下公式。