数据挖掘读书笔记-分类-决策树

最新推荐文章于 2020-04-23 10:32:01 发布

YCheng10

最新推荐文章于 2020-04-23 10:32:01 发布

阅读量269

点赞数

分类专栏：数据挖掘读书笔记

本文链接：https://blog.csdn.net/chengyn810/article/details/65409323

版权

数据挖掘读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

 预测问题：分类、数值预测
 分类=学习阶段+分类阶段
 过分拟合：在学习期间，它可能包含了训练数据中的某些特定异常，这些异常不在一般数据集中出现。

决策树
自我概况算法：利用度量属性的指标（信息增益，增益率，基尼系数）找分裂属性，分裂点，分裂准则，使每个分区都是“纯”的，即分区内所有元祖都属于同一类。直到达到终止条件（3个）。防止过分拟合，还需要剪枝。
 分类规则
 优点：表示直观、易理解；学习步骤简单、快速
 缺点：过分拟合
 剪枝：剪去反应训练数据中的噪声或离群点，以提高在未知数据分类上的准备率
 ID3，C4.5，CART: 贪心方法，自顶向下递归
 递归划分终止条件：
 分区D的所有元祖都属于同一类
 没有剩余属性可以用来进一步划分了，这种情况下采用多数表决
 给定的分枝没有元祖
 属性选择度量（分裂准则）
 最好的情况：每个分区的所有元祖都属于相同的类
 假定数据类标号属性具有m个不同的值，定义了m个不同的类Ci ∣Ci,D∣是C i,D中元组的个数

1. 信息增益（ID3算法）
信息增益最高的属性作为节点N的分裂属性，该属性使结果分区中对元祖分类所需要的信息量最小，使得对一个对象分类所需要的期望测试数目最小。

8.1是只看分类结果 8.2计算考虑到了具体单个属性

 A值为离散的，数个数即可
 A值为连续的
 将A递增排序，给定A的v个值，则需要计算v-1个可能的划分。选取两点之间的中间点作为可能的分裂点，计算v-1个信息期望

2. 增益率（C4.5）
如果属性是数据中的唯一标识（如id）,则每个分区都是纯的（因为每个分区只有一条数据），该属性得到的信息增益最大，但是对分类没有用。（将上面的减法变为了除法）

3. 基尼指数（CART）选择最小的作为分裂点

属性分类有2个以上，考虑每种可能的二元划分！选其中最小的基尼系数，再和其他属性比较。

树剪枝
1. 先剪枝
设定的阈值大小决定元组划分是否继续
2. 后剪枝（CART：代价复杂度剪枝为树中树叶节点的个数和树的错误率函数，剪去两个子树中的较小的代价复杂度）
被剪去的树枝用该树枝中最频繁的类标记
C4.5 悲观剪枝使用错误率评估
3. 前两者交叉使用

 ID3，C4.5，CART都是处理较小的数据集数据太大时，不能放进内存。因此提出可伸缩的决策树方法：穿件训练数据的一些较小样本，使用子集构建一棵树，然后最后用这些树构造一棵新树（自助乐观算法，Boat）。

YCheng10

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘读书笔记-分类-决策树

 预测问题：分类、数值预测 分类=学习阶段+分类阶段 过分拟合：在学习期间，它可能包含了训练数据中的某些特定异常，这些异常不在一般数据集中出现。决策树自我概况算法：利用度量属性的指标（信息增益，增益率，基尼系数）找分裂属性，分裂点，分裂准则，使每个分区都是“纯”的，即分区内所有元祖都属于同一类。直到达到终止条件（3个）。防止过分拟合，还需要剪枝。 分类规则
复制链接

扫一扫

专栏目录