DS&ML_分类算法笔记之决策树模型

最新推荐文章于 2024-07-18 08:00:00 发布

sgyzetrov

最新推荐文章于 2024-07-18 08:00:00 发布

阅读量3k

点赞数 1

分类专栏：学习笔记 R D.S. and M.L. 数据科学与机器学习文章标签：决策树决策树id3算法机器学习决策树过拟合剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s_gy_zetrov/article/details/79776426

版权

本文详述了决策树模型的基本思想、关键步骤、主要算法（如ID3、C4.5、C5.0、CART和CHAID）以及剪枝策略。讨论了模型的优缺点、评判标准，并提供了相关算法的改进方法，如信息增益率和基尼系数，以应对过拟合问题。

摘要由CSDN通过智能技术生成

其他相关文章

DS&ML_关联分析笔记
 DS&ML_分类算法笔记之支持自动机SVM模型
 DS&ML_分类算法笔记之随机森林、梯度提升树、XGBoost模型
 DS&ML_分类算法笔记之k-近邻、KD-Tree模型
 DS&ML_降维算法笔记之主成分分析PCA模型
 DS&ML_分类算法笔记之朴素贝叶斯模型
 DS&ML_聚类算法笔记之k-means模型
 DS&ML_分类算法笔记之逻辑回归模型

对于决策树模型的相关知识点的总结与整理

简单描述一下决策树模型的思想，决策树是什么？

决策树模型，是一种树状分类结构模型，本质是自顶向下的分治算法构造树。具体就是通过对训练样本的学习，建立分类规则；依据分类规则，实现对新样本的分类；属于有监督式的学习方法，有两类变量：目标变量（输出变量），属性变量（输入变量）。

决策树模型与一般统计分类模型的主要区别：决策树的分类是基于逻辑的，一般统计分类模型是基于非逻辑的。

两个关键步骤

特征的筛选：对特征空间按照变量对分类效果影响的大小，对变量和变量值进行选择
对数据的划分（有各种算法）

具体算法

从最顶部的根节点开始从输入数据的各个变量中的某一特征进行测试，根据测试结果，将实例分配到其下属的一个子节点中，在到达叶节点之前，该过程将会持续递归，直到满足某些条件（如当前数据子集已经基本可以被正确分类、节点深度达到阈值等），那么将构建叶节点，将当前的子集划分到对应的叶节点输出类。

每一条从根节点到叶节点的路径对应的都是一条规则，即记录在各个对应字段上应满足的若干条件，这些规则间有一个重要的性质：互斥且完备。

不同的训练算法的目标都是让模型不确定性降低得越快越好

(Copyright © http://blog.csdn.net/s_gy_zetrov. All Rights Reserved)

ID3

从根节点开始，根据每次计算各个变量信息增益的大小，选择信息增益最高的特征来作为分裂特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。

节点选择：使用信息增益来进行特征选择，当没有可以选择的特征也就是特征集合为空集时，输出当前目标变量中实例数最多的类别

ID3相当于用极大似然法进行概率模型的选择，优先选择分类较多的变量（训练集）。

缺点：

偏向取值较多的特征
ID3是非递增算法，单变量决策树(在分枝节点上只考虑单个属性)
对缺失值、极端值敏感
只考虑属性变量是离散型，对连续型的的变量（在一定区间内可以任意取值的变量，如年龄，0-120内可以任意取值）不能很好的处理
ID3算法在搜索过程中不进行回溯，每当选择了一个属性进行分类后，以后的处理过程就不会再考虑该属性了，这样算法很容易收敛到局部最优而不是全局最优
ID3算法对于较小的数据集很有效，但用于非常大的数据库挖掘时，算法效率成为瓶颈。

对于不能处理连续型变量的解决：

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。