机器学习 | 决策树

奔跑的蜗牛君666

已于 2022-12-24 19:40:17 修改

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签：决策树人工智能

于 2022-12-23 20:21:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/happylls666/article/details/128418340

版权

一.基本原理

决策树是一种树状结构模型，每一个根节点都是一个特征判断，它的叶子节点就是它的特征分类结果

决策树是一种分类和回归的基本模型，是一棵树的形式，其实就是将平时所说的 if-else 语句构建成了树的形式。决策树主要包括三个部分：内部节点，叶节点，边。构建决策树就是一个递归的选择内部节点，计算划分条件的边，最后到达叶子节点的过程

内部节点：划分的特征，也叫决策节点
叶节点：表示一个类，对应于决策结果
边：代表划分的条件

无论是哪种决策树算法，其目的都是为了让模型的不确定性降低的越快越好

基于评价指标的不同，主要分为：ID3算法，C4.5算法，CART算法

C4.5算法
ID3算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法，是ID3算法的改进，改进方面有：

用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足
在树构造过程中进行剪枝
能处理非离散的数据
能处理不完整的数据

优点：产生的分类规则易于理解，准确率较高
CART分类与回归树
是一种决策树分类方法，采用基于最小距离的基尼指数估计函数，用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的，称为分类树；如果目标变量是连续的，称为回归树。分类树是使用树结构算法将数据分成离散类的方法
优点

非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树
在面对诸如存在缺失值、变量数多等问题时CART 显得非常稳健

缺点

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效
C4.5只适合于能够驻留于内存的数据集，当训练集大的无法在内容容纳时，程序无法运行

二.优缺点

优点

易于理解和解释，可以可视化分析，容易提取出规则
可以同时处理标称型数据和数值型数据
测试数据集时，运行速度比较快
可以很好的扩展到大型数据库中，同时它的大小独立于数据库的大小

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。