决策树剪枝

一、决策树的生成算法

        基本的决策树生成算法主要有ID3和C4.5, 它们生成树的过程大致相似,ID3是采用的信息增益作为特征选择的度量,而C4.5采用信息增益比。构建过程如下:

        1.从根节点开始,计算所有可能的特征的信息增益(互信息),选择计算结果最大的特征为根节点。

        2.根据算出的特征建立子节点,执行第一步,直到所有特征的信息增益(互信息)很小或者没有特征可以选择为止。

二、决策树剪枝

         为什么要进行剪枝?决策树的过拟合的风险很大,理论上在测试阶段所有样本都可以被分类完全

剪枝策略:

预剪枝:

        限制深度,叶子节点个数,叶子节点样本数,信息增益等,

        优点:可以边建立树的过程中进行剪枝

 后剪枝:

        决策树后剪枝一般通过极小化损失函数或者代价函数来实现:


C(t)表示模型对训练数据损失函数(限误差),即拟合度。 |T| 表示当叶节点个数,参数 α≥0 控制两者之间的影响。剪枝就是当 α 确定时,选择损失函数最小的模型。子树越大,数据拟合得越好,但是模型的复杂度越高;相反,字数越小,数据拟合较差,模型的复杂度较低。损失函数正好表示对两者的平衡。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值