决策树学习day01

**Today**正式接触决策树算法,作为一个经典的分类和回归机器学习算法,确实很值得我们去探讨学习,我们今天主要讨论一下一些基本的概念。

李航的统计学习方法书中其实对决策树有了一个很好的定义。显而易见决策树其实就是数据结构中经典的树形结构,决策树由边和节点组成,节点有根节点,父节点和叶子节点组成,这就在形式上很好契合了我们分类的思想。
既然是决策树算法,那么第一个问题当然是我们如何去构造一个决策树,若构建一个决策树那么第一点当然就是:特征的选择。在这里我们就要引进一个非常经典决策树分类案例。
在这里插入图片描述
观察表格,我们可以看到有4个特征,分别是年龄,工作,房子,信贷。既然存在多个特征,我们就会思考将谁作为决策树的根节点,此时我们就涉及到信息论一个非常重要的概念。
我们生活的世界是由信息构成,一条信息的传播分为信源信道和信宿三个环节,那么传播的过程肯定就可能会存在信息的损失,也就是不完整性。假如我们用X 来表示信息或者一个事件,那么信息量的大小可以用函数H(X)来表示,我们知道一条信息,它越重要发生的概率就会越小,价值相应的也就会越大,所以自然而然我们可以引入概率来表示一条信息的重要性。现在我们试想用X1和X2来表示两条信息或者是两个事件,H(X1) and H(X2)表示两个信息量大小,那么我们如何比较H(X1)和H(X2)的大小呐,上面已经提到我们可以利用概率,**H(X)的大小和P(X)的大小是成反比的,也就是说它和1/P(x)**显然是成正比的.
同理H(X1,X2)=1/P(x1) + 1/P(x) 且H(X)满足 H(X)>0
我们发现 H(X) 和 1/P(X) 的单调性相同,所以我们要寻找一个数学函数能够表示这两者的关系。
显然,我们可以想到用对数函数 log(x) 来表示这种关系,
H(X) = log (1/P(x)) 同理 H(X1,X2) = log(1/P(X1)) + log(1/P(X)) 化简后得到 H(X1,X2)=-(log(P(X1))+log(P(X2)))
信息熵:
在物理学中熵表示空间中物质的混乱的程度,引入到信息论中,指的就是信息的有序性或者完整性(这是小编自己的理解),那么熵就可以作为我们选取哪个特征作为分类的标准的重要依据。
基于上面的推导,可以知道:
熵(Entropy):H(X)的数学期望,也就是 Entropy = E(H(X))= ∑ i = x n P ( X ) l o g P ( X ) \displaystyle\sum_{i=x}^{n} P(X) log P(X) i=xnP(X)logP(X)
了解完信息熵的概念,我们还要知道信息增益的概念,所谓的信息增益,也就是加入了某个特征之后,整个序列的有序程度的变化,我们可以得出信息增益的计算公式为:
信息增益(IG):
IG = ori-(Entropy) - Wi * Entropy(Wi) (i = 1,2,3,4,n)

那么根据上面的推导,我们可以对表格的数据进行熵的计算:
表格数据集有 15 条数据 其中 有 6 个 NO 和 9 个 Yes
即可得到:
origin(Entropy) = - 9/15 * log 9/15 - 6/15*log 6/15 = 0.971
数据即DataSet中有 4 个特征 我们以 年龄特征开始分析得:
年龄 = 青年时 :H(青年) = - 2/5log2/5 -3/5log3/5
年龄 = 中年时: H(中年) = - 3/5log3/5 -2/5log2/5
年龄 = 老年时: H(老年) = - 4/5log4/5-1/5log1/5
青年,中年,老年出现的概率分别是 5/15,5/15,5/15
H(D|年龄) = 5/15H(青年) + 5/15H(中年) +5/15H(老年) = 0.888

那么信息增益为:
g(D,年龄) = H(D) - H(D|年龄) = 0.971 - 0.888 =0.083

我们很容易知道:信息增益越大越好,信息熵越小越好。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值