机器学习02—决策树划分流程+三大算法比较+剪枝处理

本文详细介绍了决策树的学习过程,包括基本流程、划分选择(信息增益、增益率、基尼指数)以及剪枝处理(预剪枝、后剪枝)。通过对连续值的处理,如二分法,展示了决策树如何处理不同类型的数据。讨论了不同划分标准的优缺点,并指出剪枝是防止过拟合的关键策略。
摘要由CSDN通过智能技术生成

决策树概述

决策树是一种典型的分类方法 ,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then 形式; 2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。

基本流程

1、决策过程中提出的每个判定问题都是对某个属性的“测试”
2、决策过程的最终结论对应了我们所希望的判定结果
3、每个测试的结果或是导出最终结论,或者导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内
4、从根结点到每个叶结点的路径对应了一个判定测试序列

决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树!

划分选择

决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”**(purity)**越来越高

经典的属性划分方法:
信息增益
增益率
基尼指数

划分选择-信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值