学习-决策树

最新推荐文章于 2024-05-20 08:39:09 发布

weixin_42285610

最新推荐文章于 2024-05-20 08:39:09 发布

阅读量140

点赞数

文章标签：机器学习决策树数据挖掘

本文链接：https://blog.csdn.net/weixin_42285610/article/details/121541404

版权

划分选择

ID3决策树学习算法就是以信息增益为准则来选择划分属性

当在选择最佳属性值进行划分时，信息增益准则对可取值数据较多的属性有所偏好。

意思是，假设当某个属性值有三个枚举值，另一个属性值有两个枚举值，通常来说，三个枚举值的信息增益要优于两个枚举值，这样在选择的时候会有一定的不公平性。为了减少这种偏好可能带来的不利影响，提出了C4.5决策树算法。

C4.5决策树算法使用增益率来选择最优划分属性。

直接使用增益率准则对可取值数目较少的属性有所偏好，因此，C4.5采用的是信息增益与增益率结合的方法，先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

CART决策树算法使用基尼系数来选择划分属性。

直观来说，基尼系数反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，因此基尼系数越小，则数据集D的纯度越高。

剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

如何判断决策树泛化性能提升？训练集与验证集各个指标上的比较。

连续属性离散化——二分法

需要注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还可以作为后代结点的划分属性。

我们需要解决两个问题

实现这样的斜划分，非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试。

关注