决策树学习笔记1

最新推荐文章于 2023-11-06 20:42:33 发布

小白的颠覆之路

最新推荐文章于 2023-11-06 20:42:33 发布

阅读量223

点赞数

本文链接：https://blog.csdn.net/qq_20739243/article/details/89471452

版权

决策树：可以处理分类和回归问题，在分类问题中根据损失函数最小化来建立模型，然后对预测数据进行分类。建立的步骤：特征选择、决策树生成、剪枝。
基本算法：ID3、C4.5、CART

决策树模型：
1、组成结构：由结点和有向边（注意不是无向边）组成。其中结点分为内部结点（表示一个特征或属性）和叶节点（表示一个类）。可以看做是一个if-then规则结构，内部结点的特征对应于规则的条件，叶节点的类对应于规则的结论。
2、决策树也可以用条件概率分布来表示，也就是给定特征条件下，属于哪一类的概率是多少。
3、目标：与训练数据集不相矛盾的决策树/能对训练数据集进行正确分类的决策树可能有多个，也可能一个也没有，我们要做的是选择一个与训练数据矛盾较小的决策树同时泛化能力也很好。
4、提高泛化能力的方法：首先可以对决策树进行剪枝，去掉过于细分的叶节点。其次是去掉一些特征，只留下对训练数据有足够分类能力的特征。

下面介绍特征选择问题，其中涉及信息增益和交叉熵，这是ID3算法的核心内容。
1、坏的特征：一个特征的分类结果和随机分类的结果没有很大差别，那么这个特征就是没有分类能力的。通常用信息增益来衡量这些特征，例如对于两个特征，我们选择的特征应该使得划分的各个子集在当前条件下有最好的分类。
2、熵：表示随机变量不确定性的度量，熵越大则随机变量不确定性就越大。熵只依赖于随机变量X，而与X的取值无关。
在这里插入图片描述

3、条件熵：H(Y|X)表示在阈值随机变量X的条件下随机变量Y的不确定性。
4、信息增益：表示知道特征X的信息而使得类Y的信息的不确定性减少的程度。
特征A对训练数据集D的信息增益g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：g(D,A)=H(D)-H(D|A)。这个等式可以解释为：由于特征A而使得对数据集D进行分类的不确定性减少的程度。 选择信息增益最大的特征，因为它消除的不确定性最多。
5、经验熵和经验条件熵：熵和条件熵中的概率由数据估计得到。
6、信息增益比：仅仅以信息增益来选择划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。怎么理解呢？
从公式出发，信息增益是整个数据集的经验熵与特征A对整个数据集的经验条件熵的差值，信息增益越大即经验条件熵越小（第二项越小），那什么情况下的属性会有极小的的经验条件熵呢？举个极端的例子，如果将身份证号作为一个属性，那么，其实每个人的身份证号都是不相同的，也就是说，有多少个人，就有多少种取值，如果用身份证号这个属性去划分原数据集，那么，原数据集中有多少个样本，就会被划分为多少个子集，这样的话，会导致信息增益公式的第二项整体为0（因为H(D|A),D所代表的数据集就1个，每个人的身份证号码就是一个特征，所以A特别大），虽然这种划分毫无意义，但是从信息增益准则来讲，这就是最好的划分属性。
在这里插入图片描述
HA(D)表示训练数据集D关于特征A的值的熵。