state:agent相对于环境的status。
action:基于state可采取的行动。
state transtion:通过action从state1变换到state2。
policy:告诉agent在对应state下执行哪种action。
reward:agent在设计时会朝着reward期望最多的方向前进,其主要依赖当前的state和action。
trajectory:state-action-reward链,遇到终点后的trajectory也可以叫episode。
return:trajectory中所有的reward求和。
discounted return:在return中各项reward前×对应次方的gamma。
MDP(Markov decision process):