TRPO 简述 - A Brief Introduction to Trust Region Policy Optimization

最新推荐文章于 2024-03-22 18:45:34 发布

止于至玄

最新推荐文章于 2024-03-22 18:45:34 发布

阅读量3.6k

点赞数 2

分类专栏： Reinforcement Learning 文章标签：强化学习

本文链接：https://blog.csdn.net/philthinker/article/details/79551892

版权

本文我们来简单介绍下一种强化学习方法——TRPO （Trust Region Policy Optimization），中文名称是“置信域策略优化”。该方法由伯克利博士生 John Schulman 提出。TRPO 是策略搜索方法中的一类随机策略搜索方法，它正面解决了梯度更新步长选择的问题，给出了一种单调的策略改善方法。

本文仅简要论述其原理，更多细节请参考：

Schulman J., Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs. PhD thesis, University of California, Berkeley, 2016.

数学基础
- 信息论基础
- 优化基础
TRPO

数学基础

首先给出一些数学基础，对于统计、优化功底较强的读者可直接跳过。

信息论基础

信息熵：对于离散的系统

H (X) = - \sum i p i log p i

$H(X)=-\sum_{i}p_{i}\log p_{i}$ 对于连续的系统

H (x) = E x \sim P [I (x)] = - E x \sim P [log P (x)]

$H(x)=E_{x\sim P}[I(x)]=-E_{x\sim P}[\log P(x)]$ 信息熵反映了信息量的多少，信息熵越大说明信息量越多。随机事件的信息量与随机变量的确定性有关，不确定性越大包含的信息量就越大。

交叉熵：令不完美的编码用 $Q$ 表示，平均编码长度为

H (P, Q) = - E_{P (x)} Q (x) = - \int P (x) \log Q (x) d x

$H(P,Q)=-E_{P(x)}Q(x)=-\int P(x)\log Q(x)dx$ 交叉熵用来衡量编码方案不一定完美时，平均编码的长度。交叉熵常被用作损失函数。原因是真实的样本部分是

P P $P$ ，而模型概率分布为

Q

$Q$ ，只有模型分布于真实样本分布相等时，交叉熵最小。

KL散度：

D K L (P ∥ Q) = E x \sim P [log P ( x ) Q ( x )] = \int P (x) log P (x) d x - \int P (x) log Q (x) d x

$D_{KL}(P\|Q)=E_{x\sim P}\left[ \log\frac{P(x)}{Q(x)} \right]=\int P(x)\log P(x)dx-\int P(x)\log Q(x)dx$ KL 散度用来衡量两个概率分布之间的相似程度，其重要性质是 非负性 1，而且，当且仅当两个概率分布处处相等时，KL散度取到零。KL散度与一般的距离不同，它一般不具有对称性。

H (P, Q) = D K L (P ∥ Q) + H (P)

$H(P,Q)=D_{KL}(P\| Q)+H(P)$ 上述关系很容易推导，此处从略，可以看出样本的真实分布

P P $P$ 保持不变，最优化交叉熵等价于最优化 KL 散度。KL散度还可用于异常检测。

优化基础

TRPO 最终将转化为优化问题。时间有限，这里不展开介绍，具体细节参考以下两篇文章即可：

TRPO

优势函数

TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后，回报函数的值不能更差。令 $\tau$ 表示一组状态-行为序列 $s_{0},u_{0},\dots,s_{H},u_{H}$ ，则回报函数为

η (π ~) = E τ | π ~ [\sum t = 0 \infty γ t r (s t)]

$\eta(\tilde{\pi})=E_{\tau|\tilde{\pi}}\left[ \sum_{t=0}^{\infty}\gamma^{t}r(s_{t}) \right]$ 其中

π~ π ~ $\tilde{\pi}$ 表示新策略。我们令

π π $\pi$ 表示旧策略，那么拆分回报函数：

η (π ~) = η (π) + E s 0, a 0, \dots \sim π ~ [\sum t = 0 \infty γ t A π (s t, a t)]

$\eta(\tilde{\pi})=\eta(\pi)+E_{s_{0},a_{0},\dots\sim\tilde{\pi}}\left[ \sum_{t=0}^{\infty}\gamma^{t}A_{\pi}(s_{t},a_{t}) \right]$ 其中 2

A π (s, a) = Q π (s, a) - V π (s) = E s' \sim P (s' | s, a) [r (s) + γ V π (s') - V π (s)]

$A_{\pi}(s,a)=Q_{\pi}(s,a)-V_{\pi}(s)=E_{s'\sim P(s'|s,a)}\left[ r(s)+\gamma V_{\pi}(s')-V_{\pi}(s) \right]$ 可以看出，价值函数

Vπ(s) V π ( s ) $V_{\pi}(s)$ 是该状态下所有动作致函数关于动作概率的平均值；而动作值函数

Qπ Q π $Q_{\pi}$ 是单个动作对应的值函数。因此，优势指的是动作函数相比于当前状态的值函数的优势。如果优势大于零，则说明该动作比平均动作好。

下面我们改写新策略回报函数公式，求取优势函数的期望，以便后续估计：

η (π ~)

最低0.47元/天解锁文章

止于至玄

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
TRPO 简述 - A Brief Introduction to Trust Region Policy Optimization

本文我们来简单介绍下一种强化学习方法——TRPO （Trust Region Policy Optimization），中文名称是“置信域策略优化”。该方法由伯克利博士生 John Schulman 提出。TRPO 是策略搜索方法中的一类随机策略搜索方法，它正面解决了梯度更新步长选择的问题，给出了一种单调的策略改善方法。本文仅简要论述其原理，更多细节请参考： Schulman J., ...
复制链接

扫一扫

专栏目录