数据挖掘十大经典算法之—-决策树

一.决策树的构建

决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略:这里有信息增益,增益比,基尼系数这3种。

所以说信息增益,增益比,基尼系数决定着决策树的划分。选择信息增益最大的属性,作为根节点,依次递归排列。

二.熵和信息熵

通常使用“熵”来度量样本集合的纯度,“熵”就是物体内部的混乱程度,理论上“熵”的值越小,数据集的“纯度”越高,下面是“熵”的计算公式:
在这里插入图片描述

Pk指的是第k类样本所占的比率。
信息熵:指的是测试属性对于样本纯度的增益效果,值越大越好,计算公式为:
在这里插入图片描述

信息增益=样本的熵-所有测试属性熵的和
Dv指的是满足某个测试属性的样本集。
选择信息增益最大的属性,作为根节点,然后递归计算最优的节点属性即可组成最优的策略树。ID3算法就是依此实现的。

同样道理求出特征:工作,年龄,贷款特征的增益,g(D,a4)=0.4,最大,选择a4特征最为最佳特征,先放到树的第一个节点上,依次递归计算。

三. 剪枝处理
构建决策树的过程中,如果完全按照训练集进行分支节点的构建,会使决策树与训练集过拟合,无法支持真实数据的要求,而且由于分支节点过多,还会增大训练和测试的时间开销。为了解决这个问题,需要对决策树进行剪枝处理。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值