决策树算法总结

最新推荐文章于 2021-12-19 20:15:53 发布

HHXY_123

最新推荐文章于 2021-12-19 20:15:53 发布

阅读量250

点赞数

分类专栏：机器学习算法总结文章标签：机器学习算法总结

本文链接：https://blog.csdn.net/HHXY_123/article/details/86671493

版权

机器学习算法总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、决策树：是一种分类*（对离散变量）与回归（对连续变量）的方法。他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值。
决策树的优点和缺点：
优点：
1、决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解，
2、决策树模型可以可视化，非常直观
3、应用范围广，可用于分类和回归，而且非常容易做多类别的分类
4、能够处理数值型和连续的样本特征
缺点：
1、很容易在训练数据中生成复杂的树结构，造成过拟合（overfitting）。剪枝可以缓解过拟合的负作用，常用方法是限制树的高度、叶子节点中的最少样本数量。
2、学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的，这种算法不能保证建立全局最优的决策树。Random Forest 引入随机能缓解这个问题

二、决策树算法：ID3算法、C4.5算法、CART算法
（1）、ID3算法：
基本步骤：
1、对于当前的数据集合，计算每个属性对应可以产生的信息增益（信息增益的大小的本质含义：也就是数据集合不确定性减少的程度）
2、选择信息增益最大的那个属性Ai
3、把在Ai处取值相同的数据归于同于同一个数据子集，Ai取几个值就得几个子集
4、对依次对每种取值情况下的子集,递归调用建树算法，即返回步骤1
5、若子集只含有单个属性，则分支为叶子节点，判断其属性值并为子集内的数据标上相应的符号，然后返回调用处。

ID3算法缺点：
1、一般倾向于选择属性值较多的属性（因为选择标准是信息增益，属性值越多则意味着分的更加精细，那么信息增益肯定相对较大）
2、不能处理属性值为连续的问题
3、该算法只有树的生成, 所以该算法生成的树容易产生过拟合
4、不能处理带有缺失值的数据集, 故在算法挖掘之前需要对数据集中的缺失值进行预处理

C4.5算法缺点:
1、C4.5会对属性数目小的特征有所偏好，
2、算法低效，在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效
3、内存受限，适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

鉴于ID3算法和C4.5算法两个算法的缺点，为了再次平衡信息增益和属性数目的关系，我们在考虑特征时，可以优先选取信息增益高的几个属性，再考虑信息增益率最高的特征

C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：
1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2) 在树构造过程中进行剪枝；
3) 能够完成对连续属性的离散化处理；
4) 能够对不完整数据进行处理。
C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

https://www.cnblogs.com/pinard/p/6050306.html

HHXY_123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法总结

一、决策树：是一种分类*（对离散变量）与回归（对连续变量）的方法。他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值。决策树的优点和缺点：优点：1、决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解，2、决策树模型可以可视化，非常直观3、应用范围广，可用于分类和回归，而且非常容易做多类别的分类4、能够处理数值型和连...
复制链接

扫一扫