机器学习中交叉熵和相对熵的关系

最新推荐文章于 2021-07-13 16:43:40 发布

菜鸟12134

最新推荐文章于 2021-07-13 16:43:40 发布

阅读量342

点赞数

分类专栏：机器学习中的数学知识文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/nyz5211314/article/details/106896592

版权

本文探讨了机器学习中的交叉熵和相对熵。自信息用于衡量单个事件的不确定性，而信息熵则衡量整个事件的不确定性。交叉熵描述了两个分布的接近程度，相对熵（KL距离）则表示两个分布之间的差异。通过数学变换，我们可以得出交叉熵等于相对熵加上常数信息熵。在优化过程中，通常关注的是相对熵，因为信息熵是固定的。

摘要由CSDN通过智能技术生成

机器学习中交叉熵和相对熵的关系

首先需要了解几个概念
自信息：描述单个事件的不确定性
$\text { I }(x)=-\log [\boldsymbol{p}(\boldsymbol{x})]$
信息熵：描述整个事件的不确定性，事件越不确定，熵也就越大。即对自信息在事件上的概率分布求期望
$\text { H(P) }=\boldsymbol{E}_{\boldsymbol{x} \sim p}[\boldsymbol{I}(\boldsymbol{x})]=-\sum_{i}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) \log \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right)$

上图是对一个简单的二项分布求熵的结果，可以看到当probability=0.5时，信息熵的值最大等于0.69也就是最不确定。
交叉熵：描述两个分布有多接近
$\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{\boldsymbol{i}}\right)$