[强化学习] 强化学习中的基本概念

最新推荐文章于 2024-09-11 15:11:33 发布

Rick-estRick

最新推荐文章于 2024-09-11 15:11:33 发布

阅读量53

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/lovethetrueworld/article/details/133743563

版权

参考: Mathematical Foundations of Reinforcement Learning, Shiyu Zhao

以grid world作为environment为例.

Environment:　grid world 本身
State: $s_1, s_2 , s_3, ..., s_9$
Action: $a_1, a_2, a_3, a_4, a_5$
Agent: 一个能够与环境交互的智能体, 接受的输入是state, 输出action, 根据state决定action
State Space: $S=\{s_1, s_2, ..., s_9\}$
Action Apace: $A=\{a_1, a_2, a_3, a_4, a_5\}$
State Transition: $s_1\overset{a_2}{\rightarrow} s_2$ 描述了从某state采取某action并进入到另一状态的过程

当然这是deterministic的情况, 也就是在某状态下, one action only leads to one state.

表格很直观, 但一般情况下, state transition can be stochastic. 例如s1时take action a2, the agent may be blown to s5 instead of s2. 此时就不能用表格来完整描述state transition, 要借助条件概率的形式, 条件概率也是更加general的描述方式, in this deterministic case:

Policy: a policy tells the agent which action to take at every state. 可以直观地理解为state transition中的箭头. 一般来说, 有了policy, agent就知道怎样走路了, 尽管每次走的路可能不一样. 从出发点到target的这一条路也叫做轨迹(trajectory):

如图可以看到, trajectory实际上是一条state-action-reward chain.

所以一个定下来的policy下, 可以有多个trajectory.

Policy也可以用条件概率来描述, 一般符号用π. 例如s1的policy:

这表示s1位置只会take action a2, 也就是向右. 当然这也是deterministic的情况, generally policies can be stochastic:

与state transition不太一样, 表格可以用来描述stochastic policies:

Reward: 在采取action 之后, 给出一个reward, 可以理解为与environment交互之后, environment给的反馈. reward是当前state和当下采取的action的函数, 与下一个state无关; 简单来说, reward为正, 代表我们encourage the agent to take the corresponding action. reward为负, 代表我们discourage.

在这个grid world example里, reward可以这样设置:

会导致agent越过边缘时reward==-1;

会导致agent进入forbidden area时reward= =-1;

会导致agent进入target area时reward==+1;

其他情况下reward=0.

值得注意的是, 虽然设置reward时明显考虑到了下一个state是什么, 但实际上reward在数学上是和下一个state无关的. In fact, 在之后介绍的内容里会了解到, 其实没有”下一个”这样的概念, Bellman Equation是联立所有state求解出来的, 他们的地位实际上是平行的, 没有直观上的前后之分.

reward也可以用表格来表示. 但由于它的自变量有两个(state和action), 一张2维的表格就只能用来描述deterministic的情况, 也就是s和a确定了, reward也为确定值的情况:

更一般的表述还是条件概率形式:

Trajectory: 再正式地说一下trajectory, trajectory实际上是一条state-action-reward chain, 可以这样表示:

Return: 每一条trajectory上的reward之和, 上面例子里的Return=0+0+0+1=1.

Return也更形象地称为total rewards或者cumulative rewards.

Return被用来评价policies的好坏. 根据不同的policies会走出不同的trajectories, return越大说明越好.

Discounted Return: 上面的trajectory是有限的, 到s9就停止了. 在更一般的情况中, trajectory通常是无限的, 到达target area之后不断地采取停留在原地的action. 如果在s9上停留的reward=1, 那么这条trajectory的return就会发散到无穷大:

因此, 需要引入一个折扣因子, dicounted rate γ∈(0, 1), 作为每一步reward的系数, 保证它的收敛:

dicounted rate γ 的好处在于, 可以通过修改γ 的值来调整对于每一步reward的重视程度. 如果γ接近1, 那么整个discounted return更重视far-future rewards; 如果γ接近0, 那么更重视near-future rewards. 换句话说, γ的大小体现了整个policy是短视还是远视.

Episode: 通常是有限的轨迹(a finite trajectory), 也就是会在某个state上停止的. Tasks with episodes are called episodic tasks. 对应的, 如果是infinite trajectory, 意味着和environment的交互永远不会停止, 这样的task成为continuing tasks.