机器学习第四章：决策树

最新推荐文章于 2020-02-13 23:56:36 发布

chongfen9035

最新推荐文章于 2020-02-13 23:56:36 发布

阅读量184

点赞数

文章标签：数据结构与算法人工智能

原文链接：https://my.oschina.net/u/3336150/blog/1525744

版权

4.1基本流程

基本思路：分而治之

导致递归返回的三种情形：

（1）当前节点样本属于同一类别，无需划分；

（2）当前属性集为空，或所有样本属性值相同，无法划分；

（3）当前节点包含的样本集合为空，不能划分。

4.2划分选择

ID3决策树算法：以信息增益为准则

CART决策树：以“基尼指数”为准则

C4.5决策树算法：以信息增益的权重为准则，采用二分法对连续属性进行处理

多变量决策树：属性的线性组合，OC1，寻找每个属性的最有权值，局部优化再对分类边界随机扰动。

4.3剪枝处理

预剪枝：对划分前后的泛化性能进行估计，具有欠拟合风险；

后剪枝：欠拟合风险小，泛化性能较优，训练时间较长；

连续值处理：二分法

缺失值处理：赋予权重

多变量决策树：对属性进行线性组合

OC1：局部优化的基础上再对分类边界进行随机扰动

感知机树：结合决策树和神经网络

增量学习：ID4、ID5R、ITI等

随机森林算法：多棵树木组成森林，随机挑选树木，根据结果判断是为随机森林。

包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

构建随机森林：数据的随机性选取，以及待选特征的随机选取。

首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。

与数据集的随机选取类似，随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

转载于:https://my.oschina.net/u/3336150/blog/1525744

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习第四章：决策树

4.1基本流程基本思路：分而治之导致递归返回的三种情形：（1）当前节点样本属于同一类别，无需划分；（2）当前属性集为空，或所有样本属性值相同，无法划分；（3）当前节点包含的样本集合为空，不能划分。 4.2划分选择 ID3决策树算法：以信息增益为准则 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。