关于在机器学习中交叉熵和相对熵的问题

最新推荐文章于 2021-09-10 17:25:06 发布

wqpanic

最新推荐文章于 2021-09-10 17:25:06 发布

阅读量225

点赞数 2

分类专栏：机器学习文章标签：交叉熵相对熵机器学习损失函数

本文链接：https://blog.csdn.net/weixin_43181523/article/details/85595733

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

关于在机器学习中交叉熵和相对熵的问题

记录一下在学习当中的问题和解决结果。
在学到神经网络时，通常的损失函数都由交叉熵来描述，如下：
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y)))
但通常情况下，在机器学习中相对熵是可以替换交叉熵的。具体解释看
链接: 如何通俗的解释交叉熵与相对熵?
我就想既然通常“相对熵”也可称为“交叉熵”，因为真实分布p是固定的，D(p||q)由H(p,q)决定，那么为何不用相对熵随损失函数？
所以我打算试一下，用最简单的tensorflow实现MINIST手写数字识别来做试验。
我把上述的loss函数描述换成了
loss = tf.reduce_mean(tf.reduce_sum(y_* (tf.log(y_/y))))
结果处理来准确率是0.98%，这明显有问题。用之前的交叉熵的准确率是91.4%。
后来我吧相对熵的写法换了一种：
loss = tf.reduce_mean(tf.reduce_sum(y_* (tf.log(y_)+tf.log(1/y))))
也就是把log函数分开写，结果是91.4%，和交叉熵没有太大的区别。
为什么把log(A)+log(1/B)换成log(A/B)结果有变化呢？这不是等价变换吗？
最后，可能因为因为机器学习中标签一般为(1, 0, 0, 0,…, 0)(标签使用one-hot encoded)，在合起来写的那种情况，真实标签y_做了分数的分子，有很多0的情况，而log0是没有意义的。
所以最后做了一次测试：
cross_entropy = tf.reduce_mean(tf.reduce_sum(y_*(tf.log((y_+0.000001)/y))))
为了防止出现分子出现0的情况，把分子加一个很小的数，结果正确率是90.8%，从这个结果也能说明一些原因。

初学机器学习，一些拙见，欢迎讨论。

wqpanic

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于在机器学习中交叉熵和相对熵的问题

关于在机器学习中交叉熵和相对熵的问题记录一下在学习当中的问题和解决结果。在学到神经网络时，通常的损失函数都由交叉熵来描述，如下：cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y)))但通常情况下，在机器学习中相对熵是可以替换交叉熵的。具体解释看链接: 如何通俗的解释交叉熵与相对熵?我就想既然通常“相对熵”也可称为“交...
复制链接

扫一扫