首先要说的话
强化学习是用来干什么的:
如果要使一个火柴人学会自己走路,要怎么做?模仿人是个好主意。那么大家思考一下,人是怎么走路的呢?或者说人是怎么平衡的。感受角度、重心、速度等然后调整自身平衡的对吗。那么好,人有大脑,可以用来自我调整。火柴人就需要一个强化学习(Reinforcement Learning,RL)来调整。这就是强化学习。强化学习的一个典型用处就是决策。
以下所有的加粗字体都是一些执行时的随机值变量
Agent智能体:
是在环境中做出行为的主体,也就是DQN输出结果的直接获取者
Environment环境:
顾名思义就是智能体所在的环境。我们可以通过检查模型是否包含转换动态来区分是基于模型还是无模型。
State,action:
状态是环境在t时刻的样子。它与观察是完全不同的,正如你可以想象的那样,你可能会在这个状态下忽略一些东西。然而,在RL问题中,我们通常假设状态等于观察值。
Policy:
这个策略函数是一个概率密度函数
假设一个状态S=s,智能体随机或确定地做出行为A=a