机器学习之熵的计算方法及香农信息熵的含义

熵的概念

        熵是信息论中用于量化数据不确定性或混乱程度的一个指标。由克劳德·香农(Claude Shannon)在其1948年的论文《通信的数学理论》中首次提出,因此也称为“香农熵”。

香农熵的计算公式

香农熵 H 的计算公式为:

H = -\sum_{i=1}^{n}p_{i}^{}log_{2}^{}\textrm{}p_{i}^{}

其中:

  • pi​ 是第 i 个事件发生的概率。
  • n 是所有可能事件的总数。
  • 对数的底数通常取2,这样熵的单位是比特(bits)。

公式的理解

  • 对数的作用 :对数将乘法关系转化为加法关系,有助于处理不同概率之间的相互影响。
  • 负号的意义 :由于 p_{}^{i} 的范围在0到1之间,log_{2}^{}\textrm{p}_{i}^{}\textrm{}​ 是非正的。负号确保了熵值为非负数。

计算步骤

以一个简单的例子说明:

示例:抛一枚公平硬币
  • 可能的结果:正面(H)、反面(T)
  • 概率分布:
    • p(H)=0.5
    • p(T)=0.5

计算熵:

H = -(0.5 * log_{2}^{}\textrm{0.5} + 0.5 * log_{2}^{}\textrm{0.5})

计算每一项:

0.5 * log_{2}^{}\textrm{0.5} = 0.5 * (-1) = -0.5

因此:

H = -(-0.5 + -0.5) = 1 bit

熵的性质

  • 对称性 :熵值仅与概率分布有关,不考虑事件的顺序。
  • 最大值 :对于 n 个等可能事件,熵达到最大值 log_{2}^{}\textrm{n},表示最大的不确定性。
  • 最小值 :当只有一个事件发生的概率为1,其他均为0时,熵为0,表示完全确定。

应用

  • 数据压缩 :高熵意味着数据中存在大量重复或冗余,可以被有效压缩。
  • 分类与决策树 :用于选择特征以最大化信息增益,降低不确定性。
  • 密码学 :确保加密后的数据具有高熵,防止被轻易破解。

总结

        香农熵通过概率分布量化了数据的不确定性和信息量。计算时使用公式H = -\sum_{i=1}^{n}p_{i}^{}log_{2}^{}\textrm{}p_{i}^{},其值越大表示数据越混乱、不确定性越高,反之则越有序和确定。在多个领域如数据压缩、机器学习和密码学中具有广泛的应用价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值