数据分类

最新推荐文章于 2023-11-13 18:30:29 发布

Caeser_Bin

最新推荐文章于 2023-11-13 18:30:29 发布

阅读量2.1k

点赞数 2

分类专栏：数据挖掘文章标签：分类算法

本文链接：https://blog.csdn.net/qq_22855149/article/details/111241506

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据分类的定义

把数据样本映射到一个事先定义的类的过程

即是说:
给定一组用于输入的属性向量以及各向量所属的各类,用基于归纳的学习算法得出分类标准.

用这个分类标准对你新给出的属性向量进行分类,使正确率最高

要注意的事儿 :
用于分类的属性值可以是连续的
但 , 只能分类到离散的类 .

分类过程

1 获取数据

定义 : 获取一组向量以及各向量所属的类

2 预处理

定义 : 对你所获取的向量进行处理

预处理包括

1 . 去除噪声数据,对空值进行处理

2 . 数据集成或者变换(消除冗余数据,对数据降维)得到最能反映数据特性的特征数据空间

注释 :
"2."其实就是把向量中一些对分类影响不大的数据维度给去掉,就比如你的姓名与你的工资的联系不大,那么你就可以把姓名这个维度去掉.

3 分类器设计

过程如下:
1 . 划分数据集.

将数据集划分为训练集和测试集

训练集 用于 对数据分类器进行训练,就是用于学习的数据

测试集 用于 对已经经过学习的分类器进行评测

2 . 分类器构造

就是用训练集通过分析每个样本自己所带有的各属性值还有所属的类别
总结规律挖掘出判别规则
[具体用什么方法,后面介绍]

3 . 分类器测试

(1)利用构造好的分类器对测试集进行分类
(2)用测试集自己的类别和分类器分类的类别进行对比 , 从而得到分类器的性能

4 分类决策

当这个分类器满足了你的分类标准 , 就可以用它来进行分类决策了

分类评价准则

给定测试集 $X_{test}=\{(x_i,y_i)|i=1,2,3,...,N\}$ [这里的N表示测试集中样本个数]
$x_i$ 表示测试集中数据样本
$y_i$ 表示 $x_i$ 的类标号
假设共有 $m$ 个类别,那么 $y_i\in\{c_1,c_2,c_3,...,c_m\}$

假设对于测试集的第 $j$ 个类别
被正确分类为 $j$ 类的样本数量为 $TP_j$
被错误分类为 $j$ 类的样本数量为 $FN_j$
本属于其他类别但被分为为 $j$ 类的样本数量为 $FP_j$

精确度

就是正确分类的样本所占比例
$Accurary=\frac{\displaystyle\sum_{j=1}^m TP_j}{N}$

查全率&查准率

对于第 $j$ 个类别

查全率 $Recall_j)$ 表示在本类样本中 , 被正确分类的样本所占的比例
$Recall_j=\frac{TP_j}{TP_j+FP_j} ,1\le j\le m$

查准率 $Precision_j)$ 表示被分类为该类的样本中 , 真正属于该类样本所占的比例

$Precision_j=\frac{TP_j}{TP_j+FN_j} ,1\le j\le m$

F-measure

这是查全率和查准率的组合表达式 , 可以比较合理的评价分类器对每一类样本的分类性能
$F-measure=\frac{(1+\beta^2)\times Recall_j\times Precision_j}{\beta^2\times Recall_j+Precision_j}$
这里的 $\beta$ 为可调节值 , 通常取值为1

几何均值(G-mean)

$G-mean=\sqrt{\prod_{j=1}^mRecall_j}$

这个评价准则非常有效 , 能够合理评价分类性能 .

是各个类别查全率的乘积的平方根 .

当各个类别的查全率都大时 , G-mean才相应增大 , 它同时兼顾了各个类别的分类精度 .

决策树

就是以给定数据样本为基础的归纳学习方法 .

决策树算法 ID3

这里是B站上以为阿婆主的视频链接 => ID3决策树算法讲解[11分钟40秒]

B站上南开大学决策树算法的链接 => 系统化学习决策树

1 . 只能处理离散数据
2 . 采用信息增益作为选择根节点和分支结点的度量标准

假定给定的数据集
$X=\{(x_i,y_i)|i=1,2,3,...,total\}$

样本
$x_i(i=1,2,3,...,total)$ 用 $d$ 维特性向量 $x_i=[x_{i1},x_{i2},x_{i3},...,x_{id}]$ 表示

$x_{i1},x_{i2},x_{i3},...,x_{id}$ 分别对应 $d$ 个描述属性 $A_1,A_2,A_3,...,Ad$

就是说

$x_i.A_1=x_{i1}$
$x_i.A_2=x_{i2}$
$x_i.A_3=x_{i3}$
.
.
.
$x_i.A_d=x_{id}$

$y_i(i=1,2,3,...,total)$ 表示样本 $x_i$ 的类标号

假设要研究的问题含有 $m$ 个类
那么 $y_i\in \{c_1,c_2,c_3,...,c_m\}$

先验概率

假设 $n_j$ 是数据集 X 中属于类别 $c_j$ 的样本数量 , 则各个类别的先验概率 为
$各个类别的先验概率=P(c_j)=\frac{n_j}{total} ,(j=1,2,3,...,m)$

信息熵 : 信息量的期望值

对信息量的描述可以看这位博主的文章 : 信息熵

这里还有B站上一位阿婆主的视频信息量与信息熵

对给定的数据集 $X$ 分类所需的 信息熵

为:
$I(n_1,n_2,n_3,...n_m)=-\sum_{j=1}^mP(c_j)log_2(P(c_j))$
这里就是将
分类为 $c_j$ 类的概率 $P(c_j)$

与 , 分类为 $c_j$ 所需要的信息量个数为 $log_2P(c_j)$ 比特

相乘 ,再相加, 所得的就是,分类为 $c_j$ 类别的期望

$I(n_1,n_2,n_3,...n_m)=-\sum_{j=1}^mP(c_j)log_2(P(c_j))$

最后 $I(n_1,n_2,n_3,...n_m)$ 就是分类所期望的信息量 , 即是信息熵.

为什么是取对2为底的对数呢?
答: 这里可以取任何大一1的数,但通常取2或者自然对数 $e$ .
但是当我们取2为底的时候构建决策树就可以以二分的思维构建,就是说 : 不是这个,那必然是另一个.这有利于我们构建决策树.

由属性 $A_f$ 划分数据集所得熵

设属性 $A_f(f=1,2,3,...,d)$ 有 $q$ 个不同取值分别为 ${a_{1f},a_{2f},a_{3f},...,a_{qf}\}$

$A_f\in \{a_{1f},a_{2f},a_{3f},...,a_{qf}\}$

{

即 :
$x_1.A_f=a_{1f}$
$x_2.A_f=a_{2f}$
$x_3.A_f=a_{2f}$ [这里表示 $X_3$ 的 $A_f$ 属性跟 $X_2$ 的 $A_f$ 属性相同 , 比如两个人的工资相同]
$x_4.A_f=a_{3f}$
.
.
.
$x_{total}.A_f=a_{qf}$

每个数据样本的 $A f$ 属性都属于 ${a_{1f},a_{2f},a_{3f},...,a_{qf}\}$ 中的一员

}

利用描述属性 $A_f$ 可以把数据集 $X$ 划分为 $q$ 个子集 ${X_1,X_2,X_3,...,X_q\}$
{

即 : 假设
$X_1=\{x_1\}$
$X_2=\{x_2,x_3\}$
$X_3=\{x_4,x_5,x_8,x_{10}\}$
.
.
.
$X_q=\{x_6,x_{11},x_{78},x_{total}\}$

这里的 $X_i (i=1,2,3,...,q)$ 就是 $A_f$ 的不同取值所划分的 $X$ 的不同子集

在同一子集内的数据样本 , 具有相同的 $A_f$ 取值

就比如 $x_2.A_f$ = $x_3.A_f=a_{2f}$

[这里 $x_3.A_f$ 属性跟 $x_2.A_f$ 属性取值相同 , 就好比两个人的工资相同]

$X_s(s=1,2,3,...,q)$ 代表一个 $X$ 的子集
这里子集 $X_s(s=1,2,3,...,q)$ 中 , 各数据样本的 $A_f$ 具有相同取值

}

设 $n_s$ 表示子集 $X_s$ 中样本数量

$n_{js}$ 表示子集 $X_s$ 中属于类别 $c_j$ 的样本的数量

则由描述属性 $A_f$ 划分数据集 $X$ 之后所得到的信息熵为

$E(A_f)=\sum_{s=1}^q\frac{n_{1s}+...+n_{ms}}{total}I(n_{1s},...,n_{ms})$
$\frac{n_{1s}+...+n_{ms}}{total}$ , 代表数据样本被划分到 $X_s$ 的概率 , 表示为划分到子集 $X_s$ 中的样本的数量与样本总数的比值.

其中
$I(n_{1s},...,n_{ms})=-\sum_{j=1}^mp_{js}log_2(p_{js})$

$I(n_{1s},...,n_{ms})$ , 表示分类 $X_s$ 中的数据样本所 期望得到的信息量[就是信息熵].

$p_{js}=\Big(\frac{n_{js}}{n_s}\Big),[就是X_s中属于 c_j 类的样本的概率]$
$log_2(p_{js})=log_2\frac{n_{js}}{n_s},[X_s中判断为c_j类所需要的信息量]$

注意:
$E(A_f)=\sum_{s=1}^q\frac{n_{1s}+...+n_{ms}}{total}I(n_{1s},...,n_{ms})$ 的值越小,代表用 $A_f$ 划分数据集纯度越高.就是说用 $A_f$ 划分数据期望的信息量越少,代表 $A_f$ 含有的分类数据样本的信息量越多.

信息增益

$Gain(A_f)=I(n_1,...,n_m)-E(A_f)$

代表 {对 $X$ 分析所期望的信息量} 减去 {用 $A_f$ 划分数据集后所得到的还期望的信息量}.
即 : {划分数据需要的信息量} - {用 $A_f$ 划分数据之后还需要的信息量}.
就是说:用 $A_f$ 划分数据集后得到的信息量是多少.

得到的信息量越多 , 表明这个属性包含的信息量越多.

决策树算法 ID4.5

这是ID3算法的改进算法

ID4.5算法的优点

1 . 可以计算连续属性值的信息增益比
2 . 克服了ID3算法使用信息增益选择属性时对取值较多的属性的偏向.

$Gain\_ratio(A_f)=\frac{Gain(A_f)}{split(A_f)}$
其中 $n_s$ 表示 $X_s$ 中的样本数量
$split(A_f)=-\sum_{s=1}^q\frac{n_s}{total}\times log_2\Big( \frac{n_s}{total}\Big)$