熵与交叉熵

最新推荐文章于 2024-03-26 10:12:40 发布

renlei8563

最新推荐文章于 2024-03-26 10:12:40 发布

阅读量197

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/renlei8563/article/details/107060505

版权

很多人对熵都理解不清楚，我分析一下原因。首先熵的定义是一件事情的不确定性，不确定性越大，熵就越大，熵越大需要消除这种不确定性的信息量就越大，因此直观上信息量和熵成正比。这时可能就犯晕了，比如第一条信息是：北京发生了地震，另一条信息是发生了地震，不确定是北京还是天津，可能性都是0.5。直觉上第一条信息信息量大啊，因为都告诉我们哪发生了地震。第二条没有给我提供信息啊，等于没说。但显然第二条信息的不确定性大，因此按照熵的定义对应的信息量也更大，这就造成了矛盾。但如果说需要消除这种不确定性的信息量越大可能就好理解了。

为什么呢，因为我们要理解香浓信息论模型是如何定义熵的，我们要从模型的角度出发，而信息论模型的关键是就是编码解码，更具体些就是寻找能最大挖掘可消除不确定性的信息。再看第一条信息，说北京发生了地震，这是一条确定的信息，模型找不到信息量去消除不确定性，当然就不具有信息量，所以理解熵一定要从信息论模型角度去理解。

有了熵的概念就引出了交叉熵的概念，就是两件事情概率分布的差异，两件事情完全不相关，说明不确定性大，则熵也大，可以理解用一件事情去推理另一件事情需要付出的代价就很大，需要的信息量就越大，因为两件事情完全不相关。两件事情完全相关，那用一件事情就可以很好的推理另一件事情，需要付出的代价就很少。这样就可以用交叉熵来定义损失函数了，做反向梯度传播算法的依据。

我们训练一个模型，模型输出反映了一种分布，期望输出反映了另一种分布，我们希望两种分布完全一致最好，这样这个模型就可以很好的预测了。但在模型训练前，模型的输出概率分布很可能和期望输出分布完全不相关，这样用这个模型预测代价是最大的，说明这里面包含大量的信息，而这个模型和训练过程就是发现这些信息，用这些信息量消除不确定性的过程，最终是代价最小。这就是分类的最基本思想。

由于熵都是概率分布，因此使用交叉熵之前要把输入规范到0-1之间一种概率分布的形式，2分类就用logistics，多分类就用softmax。

renlei8563

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
熵与交叉熵

很多人对熵都理解不清楚，我分析一下原因。首先熵的定义是一件事情的不确定性，不确定性越大，熵就越大，熵越大需要消除这种不确定性的信息量就越大，因此直观上信息量和熵成正比。这时可能就犯晕了，比如第一条信息是：北京发生了地震，另一条信息是发生了地震，不确定是北京还是天津，可能性都是0.5。直觉上第一条信息信息量大啊，因为都告诉我们哪发生了地震。第二条没有给我提供信息啊，等于没说。但显然第二条信息的不确定性大，因此按照熵的定义对应的信息量也更大，这就造成了矛盾。但如果说需要消除这种不确定性的信息量越大可能就好理解了
复制链接

扫一扫