1.信息量:表示信息多少的量度,用来衡量信息的不确定度(衡量混乱程度的)即一个集合里面各部分比例越均衡越混乱,各部分越两极分化越不混乱。。只与随机变量概率分布有关。
2.不确定性强->信息量越大->概率低。
3.机器学习中以e为底对应单位nit,以2为底对应单位bit。
4. 满足可叠加性质。
5.自信息的性质:
6.信息的本质是对不确定性的消除。
7.那么如何使用数学来衡量混乱程度呢?
我们显然发现当物品的总数不变的情况下,两种物品数目的乘积越大越混乱,越小越不混乱。那么我们显然就可以用这个相乘的结果来衡量数据混乱程度。既然如此,如果袋子中有多种球,我们可以将他们的概率连乘即可。
相对熵(Relative Entropy),也叫 KL 散度 (Kullback-Leibler Divergence),具有非负的特性。用于衡量两个分布之间距离的指标,用P分布近似Q的分布,相对熵可以计算这个中间的损失。
P往往表示样本的真实分布,Q表示模型所预测的分布