机器学习系列之(七)决策树

前言

决策树分类的思想很简单,复杂的是对里面的各种概念的理解和各种学科的交叉,包括信息论、概率论等,还有比如熵、条件熵、信息增益、基尼指数等,下面就先从概念开始进行介绍。

定义

参考下图:
在这里插入图片描述
还是先拿去不去相亲为例,现在有一个女孩,其具有三种特征(白不白,富不富,美不美),刚开始判断她白不白,然后是富不富,最后是美不美,最后得到去、犹豫、不去三种可能中的一个。
这个过程很符合人类的思考方式,但是这个情况很简单,可以根据本能去做划分(或者从另一个角度讲,既然把白放在第一位,证明白对你特别重要),现在考虑一个女孩有一千个特征,让你对一个女孩进行三种可能的选择,现在要把什么特征放在第一位,什么特征放在第二位呢?换句话说,你怎么根据已给的女孩样本去判断特征的重要程度(对结果的影响大小)?这里就得先介绍信息论里关于熵值的一堆概念了。

信息论

1. 信息量

香农他老人家作为一个旷世天才,研究出了信息论这一对后世产生了巨大影响的理论,而这一理论的基础概念就是信息量。
“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。

“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话,换句话说这件事发生的概率是100%,信息量为0。

“吐鲁番下中雨了”(吐鲁番年平均降水量日仅6天)这条信息比较有价值,为什么呢,因为按统计来看吐鲁番明天不下雨的概率为98%(1-6/300),对于吐鲁番下不下雨这件事,首先它是随机不去确定的,这条信息直接否定了发生概率为98%的事件------不下雨,把非常大概率的事情(不下雨)否定了,即消除不确定性的程度很大,所以这条信息的信息量比较大。这条信息的情形发生概率仅为2%但是它的信息量却很大,上面太阳从东方升起的发生概率很大为1,但信息量却很小。
这里还可以举一个例子;比如最近NBA发生的浓眉加入湖人队这一事件,其原来发生的概率特别小,那么如果其发生了,那么带来的信息量就会特别大(我们现在也有所感受,其带来的信息量太大了),与其相似的还有周琦拿到MVP、太阳获得总冠军等事件,那么与之相对应的就是诸如詹姆斯拿到场均25+6,勇士获得总冠军等概率极大的事件,其信息量就很小。

从上面几个例子可以看出:信息量的大小和事件发生的概率成反比。

信息量的表示:
在这里插入图片描述
大家仔细看这个函数,h(x)代表这件事的信息量,p(x)代表这件事发生的概率,这是一个单调递减函数,函数图像如下:
在这里插入图片描述
但是大家肯定也注意到了,p(x)是概率,只能取[0,1]之间的某个值,所以是在[0,1]之间的单调递减函数,当一个事件的概率是100%,也就是1时,其信息量为0

2. 信息熵

在高中学化学的时候我们学过熵的概念,熵用来表示一个系统内的混乱程度,放到概率中可以理解为表示一个事件发生各种情况下的确定性,定义为:

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值