Kullback-Leibler Divergence（KL散度）

最新推荐文章于 2024-05-27 22:29:09 发布

RGiant

最新推荐文章于 2024-05-27 22:29:09 发布

阅读量1k

点赞数

分类专栏：数学之美

数学之美专栏收录该内容

4 篇文章 0 订阅

订阅专栏

下面一篇文章在例子中直观通俗理解KL散度：

Kullback-Leibler Divergence Explained

Light on Math Machine Learning: Intuitive Guide to Understanding KL

上文中文翻译链接：https://www.sohu.com/a/233776078_164987

知乎回答：https://www.zhihu.com/question/29980971

自我理解通俗一句话：衡量两个分布（一般是：真实分布的采样；现有的分布类型，后者拟合前者）之间的相似度。

应用实例（起因）：KL Penalty

使用KL散度匹配两个新老policy之间相似度，如果差异太大进行重的惩罚；差异不太大进行轻的惩罚。

其他参考文章：

KL散度(Kullback-Leibler_divergence)

https://zr9558.com/2015/11/17/kullback-leibler-divergence/

https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

https://www.cnblogs.com/silent-stranger/p/7987708.html

注：

图片1来源：Light on Math Machine Learning: Intuitive Guide to Understanding KL

图片2来源：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kullback-Leibler Divergence（KL散度）

下面一篇文章在例子中直观通俗理解KL散度：Kullback-Leibler Divergence ExplainedLight on Math Machine Learning: Intuitive Guide to Understanding KL 上文中文翻译链接：https://www.sohu.com/a/233776078_164987知乎回答：https://www...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。