第五章决策树

最新推荐文章于 2024-01-19 18:06:33 发布

xiaozi-ML

最新推荐文章于 2024-01-19 18:06:33 发布

阅读量650

点赞数

分类专栏：读书笔记：统计学习方法---李航

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a2224998/article/details/44560355

版权

读书笔记：统计学习方法---李航专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、决策树(decision tree)：是一种基本的分类与回归方法。

呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。

可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

主要优点：模型具有可读性，分类速度快。

学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。

包括3个步骤：特征选择、决策树的生成和决策树的修剪。

2、决策树：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。

结点有两种类型：內结点（internal node）：（表示一个特征和属性）

叶结点(leaf node)：（表示一个类）。

本质是：从训练数据集中归纳出一组分类规则。（能对训练数据进行正确分类的决策树可能有多个，也可能一个也没有）

学习的策略:以损失函数为目标函数的最小化。通常决策树学习的损失函数是正则化的极大似然函数。

3、特征选择：在于选取对训练数据具有分类能力的特征，也可以说是选择用那个特征来划分特征空间。（提高决策树学习的效率）

没有分类能力的特征：如果利用一个特征进行分类的结果与随机分类的结果没有很大差别。

特征选择的准则：信息增益或信息增益比

4、熵：是表示随机变量不确定性的度量。（熵只依赖于X的分布，与X的取值无关）。

熵越大，随机变量的不确定性就越大。

5、条件熵：X给定条件下Y的条件概率分布的熵对X的数学期望，H（Y|X） = SUM_{i = 1}^{n}p_{i}H(Y|X = x_{i})。其中，p_{i} = P(X = x_{i}).

6、信息增益(information gain)定义：特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H（D）与特征A给定条件下D的经验条件熵H(D|A)之差，即g(D,A) = H(D) - H(D|A)（信息增益大的特征具有更强的分类能力）

表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

互信息：熵H(Y)与条件熵H(Y|X)之差称为互信息（mutual information）

决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

7、ID3算法的核心：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。

8、决策树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。

原因：在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。

解决：考虑决策树的复杂度，对已生成的决策树进行简化。

剪枝（pruning）：在决策树学习中将已生成的树进行简化的过程称为剪枝。

9、CART算法：分类与回归树（classification and regression tree）

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

1、决策树(decision tree)：是一种基本的分类与回归方法。

呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。

可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

主要优点：模型具有可读性，分类速度快。

学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。

包括3个步骤：特征选择、决策树的生成和决策树的修剪。

2、决策树：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。

结点有两种类型：內结点（internal node）：（表示一个特征和属性）

叶结点(leaf node)：（表示一个类）。

本质是：从训练数据集中归纳出一组分类规则。（能对训练数据进行正确分类的决策树可能有多个，也可能一个也没有）

学习的策略:以损失函数为目标函数的最小化。通常决策树学习的损失函数是正则化的极大似然函数。

3、特征选择：在于选取对训练数据具有分类能力的特征，也可以说是选择用那个特征来划分特征空间。（提高决策树学习的效率）

没有分类能力的特征：如果利用一个特征进行分类的结果与随机分类的结果没有很大差别。

特征选择的准则：信息增益或信息增益比

4、熵：是表示随机变量不确定性的度量。（熵只依赖于X的分布，与X的取值无关）。

熵越大，随机变量的不确定性就越大。

5、条件熵：X给定条件下Y的条件概率分布的熵对X的数学期望，H（Y|X） = SUM_{i = 1}^{n}p_{i}H(Y|X = x_{i})。其中，p_{i} = P(X = x_{i}).

6、信息增益(information gain)定义：特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H（D）与特征A给定条件下D的经验条件熵H(D|A)之差，即g(D,A) = H(D) - H(D|A)（信息增益大的特征具有更强的分类能力）

表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

互信息：熵H(Y)与条件熵H(Y|X)之差称为互信息（mutual information）

决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

7、ID3算法的核心：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。

8、决策树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。

原因：在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。

解决：考虑决策树的复杂度，对已生成的决策树进行简化。

剪枝（pruning）：在决策树学习中将已生成的树进行简化的过程称为剪枝。

9、CART算法：分类与回归树（classification and regression tree）

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第五章决策树

1、决策树(decision tree)：是一种基本的分类与回归方法。呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点：模型具有可读性，分类速度快。学习时，利用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。