交叉熵函数原理

最新推荐文章于 2024-01-21 18:21:18 发布

weixin_42525633

最新推荐文章于 2024-01-21 18:21:18 发布

阅读量228

点赞数

分类专栏：机器学习基础文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42525633/article/details/109774449

版权

机器学习基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

交叉熵函数

交叉熵函数

交叉熵函数

信息量

一个信息的信息量取决于该消息对应事件发生概率的大小。或者说信息量是用来消除****随机不确定性的东西，衡量信息量的大小在于该信息消除不确定性的程度
例：
对于事件A，如果 $P\left ( A \right ) = 1$ ,信息（A事件发生了）没有消除任何不确定性，则该信息量为0
如果事件B的发生概率很小，则信息（B事件发生了）消除了很大的不确定性，该信息量也很大

假设 $X$ 是一个离散型随机变量，其取值的集合为 $\phi$ ,其概率分布函数 $Pr(X=x),x\subseteq\phi$ , 则定义事件 $X=X_{0}$ 的信息量为 $I\left ( x_{0} \right ) = -log\left ( p\left ( x_{0} \right ) \right )$

熵

对于一个事件，有n种可能性，每一种可能性对应的概率 $p(x_{i})$ ,计算每一种可能性对应的信息量

事件	概率p	信息量
A	0.7	0.36
B	0.2	1.61
C	0.1	2.30

熵可表示为所有信息量的期望，为 $H\left ( X \right ) =\sum_{i}^{n}p\left ( x_{i} \right )I\left ( x_{i} \right ) =-\sum_{i}^{n}p(x_{i})log(p(x_{i}))$

相对熵（KL散度）

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异
计算公式为： $D_{KL}(p||q)=\sum_{i=1}^n p(x_{i})log( \frac{p(x_{i})}{q(x_{i})} )$
$D_{KL}$ 的值越小，表示 $q$ 分别和 $p$ 分布越接近
在机器学习中，认为 $p$ 为现实生活中真实的分布，可以和现实数据完美拟合， $q$ 分别为模型拟合的分布，相对熵可以表示模型分布和现实分布的差距

交叉熵

分解KL散度公式有 $D_{KL}(p||q)=\sum_{i=1}^{n} p(x_{i})log(p(x_{i}))-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))$ $=-H(p(x))+[-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))]$
等式的前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵：
$-H(p(x))+[-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))]$

参考：

https://blog.csdn.net/tsyccnh/article/details/79163834
https://blog.csdn.net/b1055077005/article/details/100152102

weixin_42525633

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
交叉熵函数原理

交叉熵函数交叉熵函数信息量熵相对熵（KL散度）交叉熵交叉熵函数信息量一个信息的信息量取决于该消息对应事件发生概率的大小。或者说信息量是用来消除****随机不确定性的东西，衡量信息量的大小在于该信息消除不确定性的程度例：对于事件A，如果P(A)=1P\left ( A \right ) = 1P(A)=1,信息（A事件发生了）没有消除任何不确定性，则该信息量为0如果事件B的发生概率很小，则信息（B事件发生了）消除了很大的不确定性，该信息量也很大假设XXX是一个离散型随机变量，其取值的集合为ϕ\p
复制链接

扫一扫

专栏目录