决策树学习总结

最新推荐文章于 2024-08-04 21:08:26 发布

柠檬橘子百香果

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量2.4k

点赞数

分类专栏：机器学习文章标签：决策树学习总结

本文链接：https://blog.csdn.net/Naristilia/article/details/83510542

版权

本文是对决策树学习的总结，涵盖决策树的决策函数、训练算法、特征选择、熵与信息增益、ID3与C4.5算法、数值型特征处理、剪枝策略以及CART分类与回归树等内容。决策树因其易于理解、分类效果好和训练效率高等优点在分类问题中广泛应用。

摘要由CSDN通过智能技术生成

决策树总结

【写在最前面】
emmmm，课堂笔记的一个总结吧算是。
有任何问题请评论，求轻喷。

决策树是是分类问题中最常用的模型之一，它的优势在于：
①能够接受类别型的特征，
②分类效果与其他分类算法相当，
③训练和测试的效率高。
决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。决策树学习常用的算法有ID3、C4.5和CART。

决策树学习

决策函数

Alt text
决策树由中间节点和叶子节点构成，中间节点包含决策函数用于决策的特征，叶子节点包含决策结果和类别标签。
对于给定的训练数据，可能存在多棵能够拟合数据的决策树。比如在上图的决策树中，第一层节点用于决策的特征不是Age而是Own_house。如何进行选择？我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。由于从所有可能的决策树中选取最优决策树是NP完全问题，不能够在多项式时间中找出最优解，因此决策树学习算法通常采用启发式方法来建立次优决策树。

决策树训练算法

使用贪心分治算法来构建决策树，假设所有的特征都是类别型特征，自顶向下递归建树，初始状态为所有训练数据都在根节点上。选择一个最优的特征将训练数据划分成子集，使得各个子集有一个在当前条件下最好的分类。终止条件为：①节点上训练样本都属于同一个类别，②节点上没有训练样本，③没有更多的特征可供选择。
Alt Text

特征选择

这里主要来究竟选择哪个特征更好一些？需要选择合适的特征进行决策，划分数据，生成子节点。“合适”指的是尽量大的减少划分后子数据集的混杂度（尽可能使同一个类别的数据分到同一个子节点中）。我们用熵来度量混杂度。

熵

**熵（entropy）**是表示随机变量不确定性的度量。随机变量 $X$ 是一个取有限个值的离散随机变量，其概率分布为：
$P(X=x_i)=p_i,i=1,2,...n$
则随机变量 $X$ 的熵定义为：
$H(X)=-\sum^n_{i=1} p_i log p_i$
均匀分布时熵最大，确定分布时熵最小。（所以需要计算当前条件下使得熵最小的特征）
123