相对熵原理

最新推荐文章于 2023-04-23 15:59:08 发布

sinat_37333675

最新推荐文章于 2023-04-23 15:59:08 发布

阅读量943

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/sinat_37333675/article/details/108623631

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

知乎详解
 逻辑回归为什么不用MSE
在这里插入图片描述
以下内容来自微信公众号：风控猎人
一、相对熵
概率是表征随机变量确定性的度量，而信息是随机变量不确定性的度量，熵就是不确定性度量的平均值，即为信息的平均值。熵有很多种类型，比如信息熵、条件熵、交叉熵等。以交叉熵为例，假设随机变量的真实分布为p，预测分布为q，交叉熵度量了从q到p还需要的信息量。H(p,q)为从q到p的交叉熵，H§为分布p的信息熵，D(p||q)为相对熵，也就是K-L散度。它是两个随机分布之间距离的度量，是衡量两个概率密度函数独立性的指标。
注意一点，K-L散度没有对称性，即D(p||q)≠D(q|p)，这意味着K-L散度是单向描述信息熵差异。因此如果将两个随机分布之间的K-L散度求和，这个求和后的距离越大，证明两个随机分布的距离越大。

因此就得到一个具有对称性的距离，即为K-L距离。在数学上的距离需要满足：非负性、对称性、同一性、传递性等，因此可以理解为K-L散度不是距离，但是两个K-L散度之和可以叫做K-L距离，因为满足了对称性的要求。
为了便于理解，下面用一个案例介绍相对熵如何计算(案例来源于群体稳定性指标(PSI)深入理解)。假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知道A的具体分布。通过观察，得到概率分布B与C，各个分布的具体情况如下：

可以计算出得到KL散度如下：

由上式可知，相对熵KL(A||C) > KL(A||B)，说明A和B之间的概率分布在信息量角度更为接近。而通过概率分布可视化观察，我们也认为A和B更为接近，两者吻合。

二、相对熵与IV的关系
将上述中的K-L距离中的两个随机分布p、q换为模型预测后得到的正负样本的概率密度函数f(p|B)和f(p|G)，得到如下公式:

如果将上式写成离散形式，则连续变量分箱后的形式为：

因此，对称化后的K-L距离就是IV值。所以在挑选变量时，在每个区间的IV值越大，就表示在这个区间正负样本的概率密度函数f(p|B)与f(p|G)的距离就越大，在该区间内变量对好坏样本的区分度就越高。

三、相对熵与PSI的关系
PSI计算公式及变形如下：
在这里插入图片描述
因此，PSI本质上是实际分布（A）与预期分布（E）的K-L散度的一个对称化操作。其双向计算相对熵，并把两部分相对熵相加，从而更为全面地描述两个分布的差异。
总结一下，PSI衡量预期分布和实际分布之间的差异性，用以判断变量稳定性，IV衡量好人分布和坏人分布之间的差异性，用以判断变量预测能力，其背后的支撑理论都是相对熵。