机器学习1：信息熵_机器学习中的信息熵是什么-CSDN博客

本文链接：https://blog.csdn.net/lcj200813138020/article/details/46914149

1.在信息论中，熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。信息熵也称信源熵、平均自信息量。

2.从直观上说，信息熵越大，变量包含的信息量越大，变量的不确定性也越大。一个事物内部会存在随机性，也就是不确定性，而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息，任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理，信息与信号处理的应用都是一个消除不确定性的过程。

3.在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里， 消息代表来自分布或数据流中的事件、样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）来自信源的另一个特征是样本的概率分布。这里的想法是，比较不可能发生的事情，当它发生了，会提供更多的信息。由于一些其他的原因（下面会有解释），把信息（熵）定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量，这个随机变量的均值（即期望）就是这个分布产生的信息量的平均值（即熵）。熵的单位通常为比特，但也用Sh、nat、Hart计量，取决于定义用到对数的底。