决策树——(一)决策树的思想

本篇文章主要先从宏观上介绍一下什么是决策树,以及决策树构建的核心思想。

1. 引例

关于什么是决策树(decision tree),我们先来看这么一个例子。假如我错过了看世界杯,赛后我问一个知道比赛结果的人“哪支球队是冠军”?他不愿意直接告诉我,而让我猜,并且每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我要掏多少钱才能知道谁是冠军呢?我可以把球队编上号,从1到16,然后提问:“冠军球队在1-8号中吗?”,假如他告诉我猜对了,我会接着问:“冠军在1-4号中吗?”,假如他告诉我才错了,那么我自然知道冠军在5-8号中。这样只需要五次,我就能知道哪支球队是冠军。

而这背后所隐藏着的其实就是决策树,我们用更为直观的图来展示上面的过程:

这里写图片描述

由此我们得出,决策树就是降低信息不确定性的过程,你甚至可以将其看成是一个if-then规则的集合。如上图,一开始有16中可能性,接着变成8种,这意味着每次决策我们都能得到更多的信息,减少更多的不确定性

不过对于熟悉足球的人来说,这样的决策树似乎显得多余了。因为只有少部分的球队有夺冠的希望,而大多数都是没可能夺冠的。因此在一开始的时候就将几个热门的可能夺冠的球队分在一起,将剩余的放在一起,整个决策的效率可能就提高了一个量级。

比如最有可能夺冠的是1,2,3,4这四个球队,其余的夺冠的可能性远远小于这四个。那么一开始就可以分成1-4和5-16,如果是在1-4中,那么后面很快就能知道谁是冠军;退一万步,假如真是在5-16,你同样可以将其按照这样的思路在下一步做决策的时候将其划分成最有可能和最不可能的两个部分。

于是我们发现:若一种划分,一次能使数据的“不确定性”减少得越多(谁不可能夺冠),就意味着该划分能获取更多的信息,而我们就更倾向于采取这样的划分,因此采用不同的划分就会得到不同的决策树。现在的问题就是如何来构建一棵“好”的决策树呢?要想回答这个问题,我们先来解决如何描述的“信息”这个问题。

2. 信息的度量

关于如何定量的来描述信息,几千年来都没有人给出很好的解答。直到1948年,香农在他著名的论文“通信的数学原理”中提出了“信息熵”的概率,才解决了信息的度量问题,并且量化出信息的作用。

2.1 信息熵

一条信息的信息量与其不确定性有着直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,就需要了解大量的信息。相反,如果已经对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以从这个角度来看,可以认为,信息量就等于不确定性的多少。我们经常说,一句话包含有多少信息,其实就是指它不确定性的多与少

于是,引例中第一种划分的不确定性(信息量)就等于“4块钱”,因为我花4块钱就可以解决这个不确定性。当然,香农不是用钱,而是用“比特”(bit)这个概念来度量信息量。一个字节就是8比特。在上面的引例第一种情况中,“谁是冠军”这条消息的信息量是4比特。那4比特是怎么计算来的呢?第二种情况的信息量又是多少呢?

香农指出,它的准确信息量应该是:
H = − ( p 1 ⋅ log ⁡ p 1 + p 2 ⋅ log ⁡ p 2 + ⋯ + p 16 ⋅ log ⁡ p 16 ) H = -(p_1\cdot\log p_1+p_2\cdot\log p_2+\cdots+p_{16}\cdot\log p_{16}) H=(p1logp1+p2logp2++p

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值