[机器学习算法详解]决策树——以隐形眼镜分类问题为例

最新推荐文章于 2024-07-26 15:31:45 发布

persist_forever

最新推荐文章于 2024-07-26 15:31:45 发布

阅读量3.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sinat_26376671/article/details/44598423

版权

本文详细介绍了决策树在隐形眼镜分类问题中的应用，包括问题背景、算法详解和实验部分。通过特征选择、决策树生成和剪枝三个步骤，解释了如何使用决策树进行离散值数据的分类，特别提到了ID3决策树的递归建树过程和剪枝策略，以提高模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[机器学习算法详解]决策树——以隐形眼镜分类问题为例

一、问题背景

决策树是概念学习的一种模型和学习算法，所谓概念学习可以看成是一个搜索过程，搜索的范围是假设定义的空间，搜索的目标是寻找能更好得拟合训练样例的假设。决策树希望通过构造一种IF-THEN的规则的集合，来对离散值数据进行分类。决策树模型是一种监督学习，训练样例是包含特征和类别，每个特征的取值是离散的，类别也是离散的。例如隐形眼镜分类问题，隐形眼镜的数据集合中，有四个特征分别为患者年龄、眼睛处方、是否散光、眼泪分泌率，三个类别分别为硬型、软型和不适合佩戴。决策树模型是判别模型，通过直接生成后验概率分布作为判别条件进行分类。
决策树是一棵多叉树，树的叶子节点表示分类信息，即应该被分到的类别。树的中间节点表示用于分枝的特征属性，即在该层使用特定的属性进行分类，中间节点的分枝个数等于该特征的离散值取值个数。树从树顶到叶子节点的路径表示某一个样例根据其每个特征的取值会被分到的类别。决策树的归纳偏置是优先选择更矮的树并且优先选择对分类更好的特征使其离树根更近。决策树分为特征选择、决策树生成和剪枝三个步骤。

二、算法详解

1. 特征选择

特征选择主要解决找出哪些特征是对分类最有帮助的特征，将这些特征尽量安排到离树的根节点更近的位置，这样使得分类更加准确。通过定量的方法如何判断一个属性更适合分类，这里引入熵、条件熵、信息增益和信息增益比概念进行定量判断。
熵是指信息的不确定性程度。如果对于观测变量Y（以隐形眼镜的类别为硬、软两类），观测100次，100次都是硬，那么说明这个观测变量Y的不确定性很小，如果50次是硬，50次是软，那么说明这个观测变量Y的不确定性很大。对于一个观测变量，如果每个观测值的概率都非常小或者非常大，那么确定性很大，如果观测值的概率都非常接近，那么确定性很小。熵的计算公式为 $H(X)=\sum_ip_i \log p_i$ 当二分类时，即i只有两个取值时，对熵求导得

d d p (p log p + (1 - p) log (1 - p)) = log (1 1 - p - 1)

$\frac{d}{dp}(p\log p+(1-p)\log (1-p))=\log(\frac{1}{1-p}-1)$ 分析得知，熵随着概率从0~1的取值，从0增加到1又减少到0，和我们要求的熵的特性相同。
条件熵是指在一个特征属性的不同取值的分类下，信息的不确定性程度。如果对于特征属性取特定值时，观测变量的不确定性发生的变化说明了该特征对熵的影响程度，条件熵的公式如下