决策树-理论理解

最新推荐文章于 2022-11-18 17:07:03 发布

panddStephen

最新推荐文章于 2022-11-18 17:07:03 发布

阅读量648

点赞数

分类专栏：数据分析算法

本文链接：https://blog.csdn.net/weixin_42093798/article/details/99657544

版权

数据分析算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习中分类和预测算法的评估

准确率：例如分类达到的准确率是多少
速度：准确率高，但是算法复杂度高不高（时间快不块）
强壮行：当样本集数据与一些噪音的时候或者有一些值缺失的时候，算法表现的是不是很好。
可规模性：当一下算法在小的数据集中表现良好，但是当数据集成指数形式增长的时候，变成很大的数据集时，算法的表现如何，是否可规模化。
可解释性：当算法做出一些特征值的选择和归类的时候，我们是否能容易的解释这种归类和我们的直觉和规律是不是相符的。很容易解释模型。

1、什么是决策树、判定树（decision tree）?

判定树是一个类似于流程图的树结构：其中，每个内部节点表示一个属性上的测试，每个分支代表属性输出，每个叶子节点代表类或类分布，树的最顶端代表根节点。

是一个树结构，
每个非叶子节点表示一个特征属性上的测试，
每个分支代表这个特征属性在某个值域上的输出，
每个叶子节点存放一个类别，表示标签。
使用决策树进行决策的过程就是从根节点开始，
测试待分类项中响应的特征属性，并按照其值选择输出分支，直到到达叶子节点，
将叶子节点存放的类别作为决策结果。

1-----> overlook ? （属性值类别类）天气如何？（值域输出）三个类别 sunny overcast rain
2------> humidity？ (属性值连续变量) 湿度怎么样？（值域输出离散化（注意：设置阈值：<70 >=70））二个区间
3------> windy？（属性类别类）是否刮风……

分类器 - 决策树

2、构建决策树基本算法（大致了解）

样本集
决策树

3、熵（entropy）概念：（构建决策树之前了解什么叫熵）

举例子：
在这里插入图片描述
世界杯的球队有32个队，猜多少次？我如果这样猜：（假设已知世界冠军），
冠军队，在1~16之间，猜了第1次，正确->
冠军队，在8~16之间，猜了第2次，错误-> (冠军队在1~8之间)
冠军队，在1~4之间，猜了第3次正确->
……
最多猜5次就找到了冠军队。（最后一次不用猜）
这其实是一个二分法

比特（bit）来衡量信息的多少。
p1 第一个队夺冠的概率 p2第二个队伍夺冠的概率……
p1*log p1 = 第一个队信息的度量=bit 衡量信息的多少
在这里插入图片描述
假设每个队的夺冠的概率相等为1/36（不确定性最大）那么信息的度量之和为6（每一个队的信息度量之和）
但是现实生活中有的队伍获胜的概率比其他队伍大，我们可能不需要猜6次就能猜出。（算出来的信息的度量之和=熵总是小于6（数学计算一下得出的结论））
在这里插入图片描述
变量的不确定越大，熵也就越大

决策树归纳算法（ID3）

1970-1980 ， JRoss.Quinlan ,ID3算法

决策树算法原理

在这里插入图片描述

重复

算法：
树以代表训练样本的单个结点开始（步骤1）。
如果样本都在同一个类，则该结点成为树叶，并用该类标号（步骤2 和3）。
否则，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好地将样本分类的属性（步骤6）。该属性成为该结点的“测试”或“判定”属性（步骤7）。在算法的该版本中，
所有的属性都是分类的，即离散值。连续属性必须离散化设定阈值。
对测试属性的每个已知的值，创建一个分枝，并据此划分样本（步骤8-10）。
算法使用同样的过程，递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上，就不必该结点的任何后代上考虑它（步骤13）（剩下的属性没有年龄）。
停止条件
递归划分步骤仅当下列条件之一成立停止：
(a) 给定结点的所有样本属于同一类（步骤2 和3）。
(b) 没有剩余属性可以用来进一步划分样本（步骤4）。在此情况下，使用多数表决（步骤5）。
这涉及将给定的结点转换成树叶，并用样本中的多数所在的类标记它。替换地少数服从多数，可以存放结点样本的类分布。
© 分枝
test_attribute = a i 没有样本（步骤11）。在这种情况下，以 samples 中的多数类
创建一个树叶（步骤12）

4、其他算法：

C4.5: Quinlan
Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)
共同点：都是贪心算法，自上而下(Top-down approach)
区别：属性选择度量方法不同： C4.5 （gain ratio), CART(gini index), ID3 (Information Gain信息增益)

5、如何处理连续性变量的属性？

连续性变量离散化（找一个阈值）

6、树剪枝叶（避免overfitting)

overfitting 过拟合树的结构太细化了，训练集上特别好，但是测试集上很差，过分追求细节。
6.1 先剪枝
6.2 后剪枝

7、决策树的优点：

直观，便于理解，小规模数据集有效

8、决策树的缺点：

处理连续变量不好（离散化就要选择阈值，阈值的选择影响特别大）
类别较多时，错误增加的比较快
可规模性一般（小数据集上特别好，大数据上算法复杂度特别大。）

panddStephen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树-理论理解

机器学习中分类和预测算法的评估准确率：例如分类达到的准确率是多少速度：准确率高，但是算法复杂度高不高（时间快不块）强壮行：当样本集数据与一些噪音的时候或者有一些值缺失的时候，算法表现的是不是很好。可规模性：当一下算法在小的数据集中表现良好，但是当数据集成指数形式增长的时候，变成很大的数据集时，算法的表现如何，是否可规模化。可解释性：当算法做出一些特征值的选择和归类的时候，我们是否能容易的...
复制链接

扫一扫