深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

阿姆姆姆姆姆姆姆

已于 2024-02-23 00:13:07 修改

阅读量962

点赞数 21

分类专栏：强化学习文章标签：算法机器学习人工智能深度学习 gpt-3

于 2024-02-23 00:09:03 首次发布

本文链接：https://blog.csdn.net/quoniammm/article/details/136245301

版权

强化学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

KL 散度

KL 散度是衡量两种概率模型分布相似性的一种尺度，KL 越大两种概率模型分布相似性越小。

信息量

2022 阿根廷夺冠（没有信息量，因为已经夺冠了）
2026 阿根廷夺冠（信息量很大）

比特

对信息量进行数学意义上的定义。
f(x) := 信息量
信息量：f(2026 年阿根廷夺冠）= f(2026 年阿根廷进决赛）+ f(2026 年阿根廷赢了决赛)
概率：p(2026 年阿根廷夺冠）= p(2026 年阿根廷进决赛) * p(2026 年阿根廷赢了决赛)
所以要两个等式都成立可以 f = log（1/p）（2为底）
那么这也是信息量用计算机的名次比特来做单位（计算机里 1bit 就是 0，1 两个信息，f(0) = log(1/2) ）的原因。
那么我们可以看出信息量衡量的是，一个事件从确定到不确定的难度有多大，信息量越大，难度越大。

熵

熵和信息量类似，但是区别是熵衡量的是整个系统里的所有事件，所以得乘上每个事件发生的概率，做信息量的加权平均（信息量的期望）。均匀分布的熵最大。
或者说:
熵衡量了随机变量的不确定性编码一个随机变量所需要的比特数目（平均角度）

$\mathcal{H}(X)=\sum_i p\left(x_i\right) \log _2 \frac{1}{p\left(x_i\right)}=-\sum_i p\left(x_i\right) \log _2 p\left(x_i\right)$

相对熵（就是所谓的 KL 散度）

那么两个系统之间的熵怎么比较呢，自然而然就有了相对熵的概念。
Q 基于 P 的相对熵（以 P 为基准，看 Q 和 P 相差多少），描述了 Q 想要达到和 P 一样的概率分布中间还差了多少信息量，所以相对熵为 0 的时候，Q 和 P 概率同分布。

$\begin{aligned} & \boldsymbol{D}_{\boldsymbol{K} \boldsymbol{L}}(\boldsymbol{P} \| \boldsymbol{Q}) \\ & :=\sum_{i=1}^m p_i \cdot\left(f_Q\left(q_i\right)-f_P\left(p_i\right)\right) \\ & =\sum_{i=1}^m p_i \cdot\left(\left(-\log _2 q_i\right)-\left(-\log _2 p_i\right)\right) \\ & = \underbrace{\sum_{i=1}^m p_i \cdot\left(-\log _2 q_i\right)}_{H(P,Q) := 交叉熵}-\underbrace{\sum_{i=1}^m p_i \cdot\left(-\log _2 p_i\right)}_{H(P)} \\ & = H(P,Q) - H(P) \end{aligned}$

同理
$\begin{aligned} & \boldsymbol{D}_{\boldsymbol{K} \boldsymbol{L}}(\boldsymbol{Q} \| \boldsymbol{P}) \\ & := H(Q,P) - H(Q) \end{aligned}$

由吉布斯不等式可以知道 KL 散度一定是大于 0 的，所以我们可以直接应用交叉熵，交叉熵越小，Q 和 P 越相似。

最大熵 MDP

常规 MDP: $\max _\pi E\left[\sum_{t=0}^H r_t\right]$

最大熵 MDP(PPO, SAC 里都有用): $\max _\pi E\left[\sum_{t=0}^H r_t+\beta \mathcal{H}\left(\pi\left(\cdot \mid s_t\right)\right)\right]$
，所以最大熵 MDP 是为了增加强化学习模型的探索性，因为均匀分布下的随机变量的熵最大。

拉格朗日对偶问题

TODO

KKT 条件

TODO

备注

sigmoid 函数

$\frac{1}{1+e^{-x}}$

参考

阿姆姆姆姆姆姆姆

关注

21
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

Q 基于 P 的相对熵（以 P 为基准，看 Q 和 P 相差多少），描述了 Q 想要达到和 P 一样的概率分布中间还差了多少信息量，所以相对熵为 0 的时候，Q 和 P 概率同分布。熵和信息量类似，但是区别是熵衡量的是整个系统里的所有事件，所以得乘上每个事件发生的概率，做信息量的加权平均（信息量的期望）。那么这也是信息量用计算机的名次比特来做单位（计算机里 1bit 就是 0，1 两个信息，f(0) = log(1/2) ）的原因。那么两个系统之间的熵怎么比较呢，自然而然就有了相对熵的概念。
复制链接

扫一扫