确定的数值用小写字母表示,还不知道的就是大写字母
state:当前的状态
state transition:状态转移,做出动作后state(状态)变了的过程。
有状态转移函数:p(s’|s,a)=p(S'=s’|S=s,A=a)表示原本状态为s,做出a的动作,得到为s'的新状态的概率。
action:动作
agent:做动作的个体
reward:奖励,做完一个动作就会有一个奖励,会影响强化学习的好坏。eg:打超级马里奥,吃金币有金币+1,赢游戏有金币+10000,死了金币-100那这样的奖励就可以更加激励ai去赢游戏,而不是吃路途中的金币。
environment:环境,也就是程序
policy:根据state决定agent做什么动作
policy function:policy对应的函数。eg:π(a|s)为在s状态时做a动作的概率。
强化学习就是学policy function,让电脑自动操作任务打赢游戏。
状态转移可以是随机也可以是确定,随机性取决于环境。
eg:
up往上跳之后,状态还取决于w.p,取决于下面的小蘑菇运动方向,而他的运动方向是有概率的,所以新s是随机的。
(state,action,reward)trajectory:循环s,a,r。(state,action,reward)
return:(aka cumulative future reward)未来的每次奖励
Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来
由于未来具有不确定性,因此给未来的reward带上权重。
所以有discounted return 折扣回报。
discounted return:
Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值,1
为和该时刻同样重要。
Value function(价值函数)Qπ:
因为未来的动作发生有概率,你也不知道会做哪一个动作,所以用Qπ来表示,做期望。
Qπ(st,at)=E[Ut|St=st,At=at]。表示根据未来每个动作发生的概率做期望
对policy function和state function做积分,积掉At+1,At+2...,就可以得到基于当前st,at并对未来发生各动作的平均情况的期望,得到未来的平均价值,这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。
Optimal action-value function:最优价值函数
当前st,at的max的Qπ。
state-value function(状态价值函数):
表示Qπ的期望。可以把A作为随机变量,对A求期望,把A消掉。也就是基于目前状态做任何动作的期望,可以衡量目前的胜率,情况。π只和s有关。
对Qπ求期望也就是累加或积分每个权重乘Qπ,在这里权重就是概率,也就是π函数(决策函数)。