决策树是一个简单的判别模型,并且可以出现在训练集上100%的准确率
决策树的内部节点是特征,叶子表示的就是标签
在具体介绍决策树之前,首先介绍它的先驱概念
1.如何通过比特(01)来表示一个随机变量X的序列
例如:: BACADDCBAC.....转化成为01001000111110010010.......
假如:P(A)= P(B)=P(C)=P(D),需要四种不同的比特来表示,且概率相等,那么笔者认为可以借助抛硬币的的方式决定,一枚硬币可以产生(0,1)两种信息表示,那么用两枚硬币,便可以表示均等的信息描述
A | B | C | D |
00 | 01 | 10 | 11 |
进行表示,可以匹配上述案例,
加入,X中,ABCD,出现的概率不均等,我们就需要采用不同的比特表示方式了
P(X=A)=1/2 P(X=B)=1/4 P(X=C)=1/8 P(X=D)=1/8
在这种情况下,根据概率,来从新设计变量的比特表示:
首先,P(X=A)= 1/2,那么我们次啊用一个比特位来描述,无非就是(0,1)两种情况,我们默认采用一位0来表示A,
P(B) = 1/4,那么两位比特位,可以确定四种表示 ,P(B)=1/4,所以采用先确定以为1,再使用一位0,来表示1/4,则B= 10
P(C)和P(D)各为1/8,所以,在四分之分一,再分两份,在P(B)的基础上继续分割。所以采用三位比特,110,和111l来表示:
汇总可得:
A | B | C | D |
0 | 10 | 110 | 111 |
则上述案例BACADDCBAC,可表示为:10|0|110|0|111|111|110|10|0|110 为避免混淆,采用|分割。
平均需要1.75个比特位表示一个字母的信息
由此,我们可以推断出,
假设现在随机变量X具有m个值,分别为: V1 ,V2 ,....,Vm;并且各 个值出现的概率如下表所示
P(X=V1 )=p1 P(X=V2 )=p2 P(X=V3 )=p3 .................... P(X=Vm)=pm
比特化的结果就是信息熵:
• High Entropy(高信息熵):表示随机变量X是均匀分布的,各种取值情况是 等概率出现的。
• Low Entropy(低信息熵):表示随机变量X各种取值不是等概率出现。可能 出现有的事件概率很大,有的事件概率很小。
给定条件X的情况下,所有不同x值情况下Y的信息熵的平均值叫 做条件熵。另外一个公式如下所示:
事件(X,Y)发生所包含的熵,减去事件X单独发生的熵,即为在事 件X发生的前提下,Y发生“新”带来的熵,这个也就是条件熵本身的概念。