强化学习p1-基本概念

云生死海

已于 2023-05-09 14:19:20 修改

阅读量2.1k

点赞数

文章标签：概率论机器学习人工智能

于 2023-05-09 13:48:00 首次发布

本文链接：https://blog.csdn.net/qq_44641344/article/details/130576204

版权

Terminologies(名词)

状态(State)
每个时刻，环境有一个状态 (state)，可以理解为对当前时刻环境的概括
状态(State) 有时也被称为观测(Observation)，因为有时智能体并不能观测到环境改变后的全部，只能观测到部分。

环境(Environment)
环境 (environment) 是与智能体进行交互的对象，可以抽象地理解为交互过程中的规则或机制。

动作(Action)
动作 (action) 是智能体基于当前状态所做出的决策。

智能体(Agent)
强化学习的主体被称为智能体 (agent)。通俗地说，由谁做动作或决策，谁就是智能体。

状态空间(State Space)
状态空间 (state space) 是指所有可能存在状态的集合，记作花体字母 S。
状态空间可以是离散的，也可以是连续的。状态空间可以是有限集合，也可以是无限可数集合。

动作空间(Action Apace)
动作空间 (action space) 是指所有可能动作的集合，记作花体字母 A
动作空间可以是离散集合或连续集合，可以是有限集合或无限集合。

策略(Policy)
**策略 (policy)**根据观测到的状态，如何做出决策，即如何从动作空间中选取一个动作。
$π (a ∣ s) = P (A = a ∣ S = s)$
强化学习的目标就是得到一个策略函数 (policy function)，也叫π函数 ( function) ，在每个时刻根据观测到的状态做出决策。策略可以是确定性的，也可以是随机性的，两种都非常有用。

奖励(Reward)
奖励 (reward) 是指在智能体执行一个动作之后，环境返回给智能体的一个数值。奖励往往由我们自己来定义，奖励定义得好坏非常影响强化学习的结果。

状态转移(State transition)
状态转移 (state transition) 是指智能体从当前 $t$ 时刻的状态 $s$ 转移到下一个时刻状态为 $s^{'}$ 的过程
我们用状态转移概率函数 (state transition probability function) 来描述状态转移，记作
$p_t(s'|s,a) = P(S'_{t+1}=s'|S_t=s,A_t=a)$

表示这个事件的概率: 在当前状态 $s$ ，智能体执行动作 $a$ ，环境的状态变成 $s^{'}$
在这里插入图片描述
马尔可夫决策过程 (Markov decision process, MDP)

强化学习的数学基础和建模工具是马尔可夫决策过程 (Markov decision process，MDP)
一个 MDP 通常由状态空间、动作空间、状态转移函数、奖励函数、折扣因子等组成。

Return and Value

回报(Return)
回报 (return) 是从当前时刻开始到本回合结束的所有奖励的总和，所以回报也叫做累计奖励 (cumulative future reward)。

把 $t$ 时刻的回报记作随机变量 $U_t$ 。如果一回合游戏结束，已经观测到所有奖励，那么就把回报记作 $u_t$ 。设本回合在时刻 $n$ 结束。定义回报为:
$U_t = R_t+R_{t+1}+R_{t+2}+R_{t+3}+...+R_{n}$

回报是未来获得的奖励总和，所以智能体的目标就是让回报尽量大，越大越好。强化学习的目标就是寻找一个策略，使得回报的期望最大化。这个策略称为最优策略 (optimum policy)。

折扣回报(Discounted Return)

在 MDP 中，通常使用折扣回报 (discounted return)，给未来的奖励做折扣。折扣回报的定义如下:
$U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+\gamma ^3R_{t+3}+...$
这里的 $\gamma \in [0,1]$ 叫折扣率。对待越久远的未来，给奖励打的折扣越大。
$t$ 时刻当前状态 $s_t$

最低0.47元/天解锁文章