机器学习之熵【从定义到代码】

本文深入探讨了熵的概念,从热力学的混乱度到信息论中的信息熵,阐述了熵在衡量不确定性和信息量中的作用。通过信息量的计算公式和熵的数学表达式,解释了熵的计算过程。此外,还提供了熵的代码实现示例,展示了在不同分类情况下的熵值分析。
摘要由CSDN通过智能技术生成

熵的定义

  • 熵(entropy)的本质是一个系统“内在的混乱程度”,原是热力学概念,被香农引用到信息论中,被称为香农熵;
  • 熵在热力学中可以理解为能量转换过程中变为新状态(浪费掉的、无法再利用的)能量称为熵, 这部分能量转换会让系统的混乱度增加,熵就是系统的混乱度;如图中冰块融化为液态水,有序排列的分子吸收能量后变得无序,状态可变,系统更混乱,因此它的熵更高;
  •                        
  • 熵在信息论中也成为香农熵或信息熵,解决了信息的度量问题,对于某个变量(如得世界杯冠军),其不确定性越大,熵也就越大,搞清楚所需信息量也越大。

信息量

  • 所谓信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问"是或否"的最少次数. 如一个汉字的信息量是多少呢? 假设常用汉字1024个,那么选中每个字概率为1/1024, 信息量为10bit,没错单位就是bit比特,利用二分查找你需要询问10次可以定位这个汉字!
  • 计算公式

熵的计算

  • 整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 
  • 熵的计算公式如下:  即信息量的期望值

熵的代码实现与分析

# -*- coding: utf-8 -*-
# @Time    : 2018/4/19 17:04
# @Author  : mjautoman
# @Site    : 
# @File    : tr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值