【大数据开发基础】第八章分类数据挖掘

最新推荐文章于 2023-10-17 20:02:43 发布

-断言-

最新推荐文章于 2023-10-17 20:02:43 发布

阅读量384

点赞数

分类专栏： # 大数据开发基础文章标签：决策树算法

本文链接：https://blog.csdn.net/qq_44807176/article/details/117201388

版权

大数据开发基础专栏收录该内容

9 篇文章 3 订阅

订阅专栏

文章目录

1 分类挖掘的基本流程
2 基于距离的分类算法
3 决策树分类方法
4 贝叶斯分类方法

分类与预测问题是预测问题的两种主要的类型，分类主要是预测分类标号（基于离散属性的），而预测是建立连续值函数模型，预测给定自变量对应的因变量的值.

1 分类挖掘的基本流程

2 基于距离的分类算法

3 决策树分类方法

3.1 决策树的基本概念

决策树的每个内部节点表示在一个属性上的测试，其每个分支代表一个测试的输出
树的每个叶结点代表一个类别
决策树的生成包含两个过程：
（1）树的建立
（2）树的剪枝：识别并消除孤立点，以提高在未知数据上分类的准确性
决策树生成算法是一个贪心算法，采用自上而下、分而治之的递归方式来构造。
同一个属性可以出现在决策树的两个分支上
测试属性的选择是构建决策树的关键环节，不同的决策树算法在此使用的技术都不尽相同
在决策树算法中，所有属性均为符号值，即离散值，因此若有取连续值的属性，必须首先进行离散化
常见的决策树生成算法：CLS、ID3、C4.5、CART

3.2 决策树的生成算法

3.2.1 CLS

CLS算法的基本流程：
1）生成一颗空决策树和一张训练样本属性集;
2）若训练样本集T 中所有的样本都属于同一类，则生成结点T ，并终止学习算法；否则
3）根据某种策略从训练样本属性表中选择属性A 作为测试属性，生成测试结点A
4）若A的取值为v1,v2,…,vm，则根据A 的取值的不同，将T 划分成 m个子集T1,T2,…,Tm;
5）从训练样本属性表中删除属性A;
6）转步骤2, 对每个子集递归调用CLS。

CLS存在的问题：在步骤3中，没有规定选择测试属性的标准和依据。而测试属性集的组成以及测试属性的先后对决策树的学习具有举足轻重的影响
选择节点属性是决策树学习算法中重要的研究课题。

3.2.2 ID3

主要解决了CLS算法中选择策略的问题。
ID3算法主要针对属性选择问题而提出
在ID3算法中，选择具有最大信息增益（information gain）的属性作为当前划分节点
熵：表示信源的不确定性。
信息熵代表信源整体的平均不确定性程度。信源的不确定性越大，熵越大
信息增益的计算：Gain(S, A)= Entropy(S) –Entropy(S, A)
其中：
Entropy(S) 是决策S初始的不确定性
Entropy(S, A) 是收到A属性的信息后，决策S的不确定性
Gain(S, A)是属性A对决策S的信息增益
Gain(S, A)越大，说明属性A对降低决策S的不确定性起到的作用越大。
ID3算法的基本思想是，以信息熵为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一棵熵值下降（不确定性降低）最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类。
ID3算法优点：算法简单，易于理解
ID3算法缺点：
（1）偏向条件属性中取值多的一个
（2）只能处理离散属性
（3）无法对未知条件属性进行处理
（4）ID3算法不包括树剪枝，易受噪声和波动影响

例题：
训练数据集如下：

由上图可知共有两种决策，分别为yes和no。其中yes有9个元组、no有5个元组
初始不确定性： $Entropy(S)=-\frac{9}{14}*log\frac{9}{14}-\frac{5}{14}*log\frac{5}{14}=0.940$
接下来开始计算增加属性天气的信息后，决策的不确定性。
经分析：
天气=“晴朗”，[yes,no]=[2,3]
天气=“多云”，[yes,no]=[4,0]
天气=“雨天”，[yes,no]=[3,2]
$Entropy(S，天气)=\frac{5}{14}*（-\frac{2}{5}*log\frac{2}{5}-\frac{3}{5}*log\frac{3}{5}）+\frac{4}{14}*（-\frac{4}{4}*log\frac{4}{4}-\frac{0}{4}*log\frac{0}{4}）+\frac{5}{14}*（-\frac{3}{5}*log\frac{3}{5}-\frac{2}{5}*log\frac{2}{5}）=0.694$
计算属性“天气”对消除决策的不确定性带来的信息增益：
$G a i n (S, 天气) = E n t r o p y (S) - E n t r o p y (S, 天气) = 0.940 - 0.694 = 0.246$
类似的过程，计算其他属性带来的信息增益：
$G a i n (S, 温度) = 0.029$
$G a i n (S, 湿度) = 0.151$
$G a i n (S, 风力) = 0.048$
$G a i n (S, 天气) = 0.246$
由于属性 “天气”具有最高的信息增益，因此被选出作为决策树的根节点。
根据“天气”属性的取值，划分分支。
按照相似的过程，在每个分支上选取相应的测试属性，直到分支上所有样本都属于同一类，或没有测试属性可选，决策树的生长过程结束。

3.2.3 C4.5

C4.5以二值离散的方式处理连续型数据：增益率代表增益，阈值导致的平均分配问题/信息增益选阈值，信息增益率选属性（MDL原理）

ID3缺点1：偏向分割属性中取值多的一个。C4.5算法通过引入增益比例解决上述问题

原因：分割属性取值越多，每个值对应的子集规模越小。极限情况下，每个子集内只有一个单元（行），则它的信息增益必然最高（对不确定的消除达到最大）。

例如，用身份证号区别“是否相亲成功”，显然没有任何意义，但是确实符合ID3算法。

ID3缺点2：只能处理离散分割属性。
原因：对于连续属性，和缺点1类似。如果把连续值看作离散值，则会产生分割属性的偏向问题。
C4.5解决方法：引入“阈值”，将分割属性化为 $y_i≤阈值；y_i>阈值$
ID3缺点3：无法对未知分割属性进行处理
原因：某分割属性Y的一个取值 $y_i$ 由于一些原因未被记录
C4.5解决方法：对于数值型数据用平均值代替；对于离散型数据用概率法代替。
ID3缺点4：无树剪枝，易受噪声和波动的影响
C4.5解决方法：K阶交叉验证