深度强化学习（1）：基础知识篇

Sudaa__

已于 2022-03-18 10:26:32 修改

阅读量2k

点赞数 2

分类专栏：科研文章标签：机器学习人工智能深度学习

于 2022-03-12 18:45:59 首次发布

本文链接：https://blog.csdn.net/qq_44755885/article/details/123447869

版权

7 篇文章 5 订阅

订阅专栏

随机变量（Random Variable）：
- 一个未知变量，值只取决于一个随机事件的结果（Eg：抛硬币的结果）。
- 用 $X$ 表示随机变量， $x$ 表示观测值 （单纯的数，没有随机性）。
概率密度函数（Probability Density Function, PDF）：
- 随机变量在某个确定的取值点附近的可能性。
- Eg：高斯分布
- 性质：积分（连续）或者加和（离散）值为1。
期望（Expectation）：
随机抽样（Random Sampling）

State（状态）和 Action（动作），动作的主体为 Agent（智能体）。
Policy（策略）
- 根据观测到的state（状态）做出policy（决策），控制Agent（智能体）运动。
- 数学表述：
- 强化学习主要就是学习这个 policy函数。
Reward（奖励）
- 对Agent做出的Action的评价。
- 强化学习的目标：获得的Reward尽可能的高。
state transition（状态转移）
- 做出Action导致进入新的State。
- 状态转移可以是随机的（通常），随机性来自环境。
- 数学表述：
智能体与环境的交互

Actions有随机性。
- 智能体的动作（Actions）是根据policy函数 随机抽样 得来的。
状态转移有随机性。
- Agent做出动作后，环境生成的下一个状态S‘具有随机性。
- 环境用状态转移函数p算出概率，然后用概率 随机抽样 来得到下一个状态S’。

Return (cumulative future reward)是 未来所有奖励的总和 , 数学定义(由于普遍未来的奖励没有现在的奖励值钱,所以普遍使用 Discounted Return.):
Returns中的随机性
Return $U_t$ 的随机性来源是未来所有的动作和状态.

$U_t$ 是个***随机变量***,在 $t$ 时刻其并不能确定,依赖于未来所有的动作( $A_t, A_{t+1}, A_{t+2}, ...$ )和状态( $S_t, S_{t+1}, S_{t+2}, ...$ ).
对随机变量 $U_t$ 求期望, 得到一个数, 记作 $Q_{\pi}$ , 动作价值函数. 只与当前的状态 $s_t$ 和动作 $a_t$ 有关, 因为未来的状态和动作都被积分积掉了, 而 $s_t$ 和 $a_t$ 是观测到的值而不是随机变量. $Q_{\pi}$ 还与policy函数有关(积分时会用到).
$Q_{\pi}$ 意义: $Q_{\pi}$ 告诉我们如果用policy函数 $\pi$ 在 $s_t$ 状态下做动作 $a_t$ 是好还是坏
最优动作价值函数 $Q^*$ : 与 $\pi$ 无关, 找的是能使 $Q_{\pi}$ 最大的 $\pi$ .
$Q^*(s_t, a_t)$ 意义: 对动作 $a$ 做评价, 假如有了 $Q^*(s_t, a_t)$ , Agent就可以根据对动作的评价做决策.