机器学习基础（六）—— 交叉熵代价函数（cross-entropy error）

最新推荐文章于 2025-03-25 20:14:31 发布

五道口纳什

最新推荐文章于 2025-03-25 20:14:31 发布

阅读量4.4w

点赞数 19

分类专栏：机器学习

本文链接：https://blog.csdn.net/lanchunhui/article/details/50970625

版权

机器学习专栏收录该内容

121 篇文章

订阅专栏

本文详细解释了交叉熵的概念，包括其与熵的关系、交叉熵代价函数的应用，并探讨了其在神经网络中的作用，特别是在解决sigmoid函数导数饱和问题方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

交叉熵代价函数

1. 交叉熵理论

交叉熵与熵相对，如同协方差与方差。

熵考察的是单个的信息（分布）的期望：

H (p) = - \sum i = 1 n p (x i) log p (x i)

$H(p)=-\sum_{i=1}^n p(x_i)\log p(x_i)$

交叉熵考察的是两个的信息（分布）的期望：

H (p, q) = - \sum i = 1 n p (x i) log q (x i)

$H(p,q)=-\sum_{i=1}^np(x_i)\log q(x_i)$
详见 wiki Cross entropy

y = tf.placeholder(dtype=tf.float32, shape=[None, 10])

.....

scores = tf.matmul(h, w) + b
probs = tf.nn.softmax(scores) 
loss = -tf.reduce_sum(y*tf.log(probs))

2. 交叉熵代价函数

L H (x, z) = - \sum k = 1 d x k log z k + (1 - x k) log (1 - z k)

$L_H(\mathbf x,\mathbf z)=-\sum_{k=1}^dx_k\log z_k+(1-x_k)\log(1-z_k)$

x $\mathbf x$ 表示原始信号，

z $\mathbf z$ 表示重构信号，以向量形式表示长度均为

d $d$ ，又可轻易地将其改造为向量内积的形式。

3. 交叉熵与 KL 散度（也叫相对熵）

所谓相对，自然在两个随机变量之间。又称互熵，Kullback–Leibler divergence（K-L 散度）等。设 p(x) 和 q(x) 是 X 取值的两个概率分布，则 p 对 q 的相对熵为：

D K L (p | | q) = = = \sum i = 1 n p (x i) log p ( x i ) q ( x i ) \sum i = 1 n p (x i) log p (x i) - \sum i = 1 n p (x i) log q (x i) - H (p) + H (p, q)

$\begin{split} D_{KL}(p||q)=&\sum_{i=1}^n p(x_i)\log\frac{p(x_i)}{q(x_i)}\\ =&\sum_{i=1}^np(x_i)\log p(x_i)-\sum_{i=1}^np(x_i)\log q(x_i)\\ =&-H(p)+H(p,q) \end{split}$

（在稀疏型自编码器损失函数的定义中，基于 KL 散度的惩罚项常常定义成如下的形式：