参考资料:https://blog.csdn.net/cltcj/category_11195544.html?spm=1001.2014.3001.5482
一、基础概念
agent:例如机器人
action:例如上下左右
state:当前状态
t时刻,我们有st,根据policy(或Q)得到at;t+1时刻获得rt,s+1,再根据policy(或Q)得到at+1
1.1 策略函数和状态转移函数
这两个函数都是概率密度函数,真实的action选择和状态转移是从这个概率中随机抽样。因此,随机性也来源于这两个部分。
1.2 动作价值函数和状态价值函数
Ut:现在是t时刻,还未知t时刻的回报。Ut是t时刻及之后所有回报,与St,At,St+1,At+1,......都有