数据挖掘（六）分类

最新推荐文章于 2022-04-15 08:29:15 发布

kxwang_

最新推荐文章于 2022-04-15 08:29:15 发布

阅读量602

点赞数

分类专栏：数据挖掘课堂笔记文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/keke_Memory/article/details/103495316

版权

决策树

决策树介绍

决策树（Decision Tree，DT）分类法是一个简单且广泛使用的分类技术。
决策树是一个类流程图 树，因此是一个数状预测模型：
树中包含3种结点：根结点、内部结点和叶子结点。决策树只有一个根结点，是全体训练数据的集合；
内部节点针对于属性执行测试；
节点的分支代表预测结果；
叶节点包含类别标签；
可以轻松转换为分类规则。
决策树如何用于分类？跟据属性判断决策结果。
对于给定的未知元组X，针对树来测试其属性值；
从根到叶的路径表示X的类别。

决策树示例

使用决策树进行决策的过程就是，从根结点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子结点，将叶子结点存放的类别作为决策结果。

下图是一个预测一个人是否会购买电脑的决策树。利用这棵树，可以对新记录进行分类。从根结点（年龄）开始，如果某个人的年龄为中年，就直接判断这个人会买电脑，如果是青少年，则需要进一步判断是否是学生，如果是老年，则需要进一步判断其信用等级。在这里插入图片描述
假设客户甲具备以下 4 个属性：年龄 19、低收入、是学生、信用一般。通过决策树的根结点判断年龄，判断结果为客户甲是青少年，符合左边分支，再判断客户甲是否是学生，判断结果为用户甲是学生，符合右边分支，最终用户甲落在“yes”的叶子结点上。所以预测客户甲会购买电脑。

决策树算法

基本算法是greedy算法。

数的建立是以自上而下的递归分治方式：

树从包含所有训练数据的单个节点开始；
选择最佳属性，splitting criterion（分裂条件）来执行测试；
从观察到的元组的属性列表中排除不合适的分裂条件；
用分割条件来标注节点，节点的分支即为节点的测试结果（划分观察到的元组）；
该算法在每个分支中的现有元组上递归执行；
终止：
节点中的所有元组都属于同一类；
属性列表为空，然后将节点标记为具有其元组最常见类的叶子节点；
分支为空，然后将以多数投票标记的叶子附加到该节点。

下图表示为划分元组的可能性：
在这里插入图片描述

( a )
A是离散的；
A的每一个值表示为一个分支
( b )
A是连续的；
两个分支基于“分裂点”
( c )
A是离散的并且为二分类；
两个分支基于A的“分裂子集”

特征选择

按照贪婪算法建立决策树时，首先需要进行特征选择，也就是使用哪个特征作为分裂条件。选择一个合适的特征作为分裂条件，可以加快分类的速度，减少决策树的深度。

特征选择的措施

一种选择分裂条件的方法来最佳划分给定训练样本；

特征选择的目标就是使得分类后的数据集比较纯，理想情况下，给定分区中的所有样本都属于同一类（纯净分区）

给每一个存在的特征一个分数；

有较高分或者最高分的那个特征被选择为分裂条件；

针对特征，得到分割点或者分裂子集；

如何衡量上述的分数?

例如information gain(信息增益)，gain ration(增益比）和（Gini系数）

特征选择方法：

选取具有最高信息增益的特征；

信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。
Entropy(信息熵)解决了对信息的量化度量问题。

设p_i为D中的元组属于C类的概率为：
$C_i,_D| / |D|$

对D中的元组进行分类所需的Expected information(entropy):
$\sum_{i=1}^{m}p_ilog_2(p_i)$

通过使用A在v分区将D分类的信息：
$info_A(D) = \sum_{j=1}^{v}\frac{D_j}{D} * info(D_j)$

通过分支特征A获得信息增益：
$Gain(A) = info(D) - info_A(D)$

Information Gain （ID3）

当选择某个特征对数据集进行分类时，分类后的数据集的信息嫡会比分类前的小，其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

ID3 算法使用信息增益作为属性选择度量方法，也就是说，针对每个可以用来作为树结点的特征，计算如果采用该特征作为树结点的信息增益。然后选择信息增益最大的那个特征作为下一个树结点。

在这里插入图片描述

特征age具有最高的信息增益，因此被选作分裂条件

计算连续值型特征的信息增益

假设特征A为连续值型特征（例如薪水，年龄）

必须确定A的最佳分裂点:

按升序对值进行排序；
每对相邻值之间的中点被视为可能的分裂点；
为每个可能的分裂点计算info_D(A)（分区数为2）
选择有最小的info_D(A)的点为分裂点

然后，把D分为两部分：

D₁是满足A≤split-point的元组集合，而D₂是满足满足A>split-point的元组集合

Gain Ratio （C4.5）

信息增益偏向具有大量值的特征（例如：导致大量的纯分区）
特征product_id的信息增益为max；无用
Gain Ratio ：由C4.5（ID3的后继者）使用以克服该问题（标准化增益）
$SplitInfo_A(D) = - \sum_{j=1}^{v}\frac{|D_j|}{|D|} * log_2\frac{|D_j|}{|D|}$
$GainRatio(A) = Gain(A) / SplitInfo_A(D)$
例如：
选择具有最大增益比率的特征作为分裂特征

Gini Index (CART)

测量D的不纯度
$\sum_{i=1}^{m}p_i^2$

最低0.47元/天解锁文章

kxwang_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据挖掘（六）分类

文章目录分类什么是分类？分类和数值预测监督 VS 无监督学习分类过程决策树决策树介绍决策树示例决策树算法特征选择特征选择方法：Information Gain （ID3）计算连续值型特征的信息增益Gain Ratio （C4.5）贝叶斯分类方法规则分类模型评估与选择提高分类准确性的技术总结分类什么是分类？假设：银行贷款员需要对其数据进行分析，以了解贷款申请人对银行而言“安全”还是“风险”...
复制链接

扫一扫