对数似然梯度技巧（Log-Likelihood Trick）

爱看烟花的码农

于 2025-05-04 17:09:25 发布

阅读量921

点赞数 26

CC 4.0 BY-SA版权

分类专栏：黑盒优化 ML 文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/147701181

1. 什么是对数梯度技巧？

对数梯度技巧的核心目标是计算目标函数的梯度，形式通常为期望：

$J(\theta) = \mathbb{E}_{p(x|\theta)}[f(x)] = \int p(x|\theta) f(x) \, dx$

其中：

$p(x∣θ)p(x|\theta)$ 是参数化的概率分布，依赖于参数 $θ\theta$ （例如神经网络权重或分布参数）。
$f (x)$ 是基于样本 $x$ 的函数，例如损失、奖励或目标值。
我们需要计算 $∇θJ(θ)\nabla_\theta J(\theta)$ 以通过梯度下降优化 $θ\theta$ 。

直接计算梯度 $∇θJ(θ)\nabla_\theta J(\theta)$ 涉及对概率分布 $p(x∣θ)p(x|\theta)$ 求导，可能面临积分复杂、数值不稳定等问题。对数梯度技巧通过以下关键性质简化计算：

$\nabla_\theta \log p(x|\theta) = \frac{\nabla_\theta p(x|\theta)}{p(x|\theta)}$

这允许我们将梯度表达为一个可通过蒙特卡洛采样估计的期望形式：

$\nabla_\theta J(\theta) = \mathbb{E}_{p(x|\theta)}[\nabla_\theta \log p(x|\theta) f(x)]$

这个公式是对数梯度技巧的核心，广泛应用于需要优化概率分布的场景。

2. 为什么需要对数梯度技巧？

在优化概率模型时，目标函数通常涉及期望，形式如：

$J(\theta) = \mathbb{E}_{p(x|\theta)}[f(x)]$

直接计算梯度：

$\nabla_\theta J(\theta) = \nabla_\theta \int p(x|\theta) f(x) \, dx$

会遇到以下挑战：

复杂积分： $p(x∣θ)p(x|\theta)$ 可能是高维或非解析的，积分难以直接求解。
参数依赖： $p(x∣θ)p(x|\theta)$ 依赖于 $θ\theta$ ，梯度需要作用在整个积分上，计算复杂。
数值不稳定：直接操作概率密度可能导致数值溢出或下溢，尤其在概率值极小或极大时。
黑盒场景：在某些情况下（如商业 API），模型是黑盒的，无法访问内部参数或梯度。

对数梯度技巧通过对数导数性质将梯度转化为期望形式，允许通过采样估计，避免直接求解复杂积分，且对黑盒模型友好。

3. 对数梯度技巧的数学推导

以下是对数梯度技巧的详细数学推导，涵盖连续和离散分布。

3.1 目标函数

假设目标函数为：

$J(\theta) = \mathbb{E}_{p(x|\theta)}[f(x)] = \int p(x|\theta) f(x) \, dx$

我们需要计算梯度 $∇θJ(θ)\nabla_\theta J(\theta)$ 。对于离散分布，积分替换为求和，但推导原理类似。

3.2 对数导数性质

考虑概率密度 $p(x∣θ)p(x|\theta)$ 的对数：

$\log p(x|\theta)$

对其求梯度：

$\nabla_\theta \log p(x|\theta) = \frac{\nabla_\theta p(x|\theta)}{p(x|\theta)}$

因此：

$\nabla_\theta p(x|\theta) = p(x|\theta) \nabla_\theta \log p(x|\theta)$

3.3 梯度推导

将目标函数的梯度展开：

$\nabla_\theta J(\theta) = \nabla_\theta \int p(x|\theta) f(x) \, dx$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。