最近在学习Reinforcement Learning,参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章,所以先写了这篇博客,前面两章之后补上吧。
The Agent-Environment Interface
- agent : 学习者和决策者。
- environment : 与agent交互、在agent外部的所有。
agent与environment持续地交互,agent选择actions(动作),environment对这些actions做出反馈,返回给agent一个新的situation(状态),并给出reward(回报)。agent需要做的就是使最终的reward最大化。
图1 agent-environment之间的交互
Environment的完整定义,包括reward如何决定、task如何定义,亦即增强学习问题的实例如何定义。
图1的一些具体解释:
agent与environment之间的交互是离散地分步进行的,t = 0, 1, 2, 3, …(尽管t也可以是连续的,为了简化问题,我们采用离散时间)
在每一步t,agent会从environment获得当前state, St∈S , S 是所有可能状态的集合
基于 St ,agent会选择一个action, At∈A(St) , A(St) 是状态 St 下所有可选action的集合
一步之后,agent得到一个数值化的reward, Rt+1∈R⊂R ,以及新的状态, St+1
在每一步,agent需要计算,在当前state下,选择各个action的概率, πt(a|s)=P