basic_classification

最新推荐文章于 2022-07-27 11:10:46 发布

LangWeiXian_

最新推荐文章于 2022-07-27 11:10:46 发布

阅读量608

点赞数

分类专栏： Data mining 亨特基尼指数与熵

原文链接：https://www-users.cs.umn.edu/~kumar001/dmbook/

版权

Data mining 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

亨特

1 篇文章 0 订阅

订阅专栏

基尼指数与熵

1 篇文章 0 订阅

订阅专栏

1. 分类的定义

给定一个训练集

---每条记录的特征用元组(x, y)表示，其中x是属性集，y是类标签。

x：可以是，属性，预测变量，自变量，输入

y：类，响应，因变量，输出

任务：学习一个模型，这个模型将每一个属性集x映射到一个预定义类标签y

图1：建立分类模型的一般方法

图2：一个决策树例子

2. 亨特算法--递归法（最早的分类算法之一）

选择结果类Dt作为训练集的起点。
如果Dt包含的结果属于同一个类别yt，那么t就是被标记为yt的一个叶子结点。
如果Dt包含的结果有多个类别，就使用一个属性测试把数据分成更小的子集。整个子集递归执行这个过程。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
1	Yes	Single	125K	No
2	No	Married	100K	No
3	No	Single	70K	No
4	Yes	Married	120K	No
5	No	Divorced	95K	Yes
6	No	Married	60K	No
7	Yes	Divorced	220K	No
8	No	Single	85K	Yes
9	No	Married	75K	No
10	No	Single	90K	Yes

表1：违约借款人

图3：亨特算法流程

这张图的意思是：

（a）选择结果类Defaulted Borrower为树根，其中No和Yes的个数是（7,3），很明显这里面有两个类别，Yes和No。所以要继续往下分，选择其他的属性集。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
1	Yes	Single	125K	No
2	No	Married	100K	No
3	No	Single	70K	No
4	Yes	Married	120K	No
5	No	Divorced	95K	Yes
6	No	Married	60K	No
7	Yes	Divorced	220K	No
8	No	Single	85K	Yes
9	No	Married	75K	No
10	No	Single	90K	Yes

（b）选择属性Home Owner来替换Defaulted Borrower。它也有两个类别Yes和No，当Home Owner=Yes的时候，选中了3条记录。而这3条记录的Defaulted Borrower=No（3,0），便将Defaulted Borrower作为叶子结点，无需再递归。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
1	Yes	Single	125K	No
2	No	Married	100K	No
3	No	Single	70K	No
4	Yes	Married	120K	No
5	No	Divorced	95K	Yes
6	No	Married	60K	No
7	Yes	Divorced	220K	No
8	No	Single	85K	Yes
9	No	Married	75K	No
10	No	Single	90K	Yes

而剩下的7条Home Owner=No的情况，他们之中Defaulted Borrower仍然有两种类别（4,3），所以仍需继续分下去。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
2	No	Married	100K	No
3	No	Single	70K	No
5	No	Divorced	95K	Yes
6	No	Married	60K	No
8	No	Single	85K	Yes
9	No	Married	75K	No
10	No	Single	90K	Yes

（c）将属性Marital Status加入子结点中，这里是名词性的属性，有3类，选择二分法，Single和Divorced按照常识都是单身，分为一种，而Married成为另一种。而Marital Status=Married的人，无一例外Defaulted Borrower=No（3,0），所以可以单独成为叶子结点。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
2	No	Married	100K	No
3	No	~~Single~~	~~70K~~	No
5	No	~~Divorced~~	~~95K~~	~~Yes~~
6	No	Married	60K	No
8	No	~~Single~~	~~85K~~	~~Yes~~
9	No	Married	75K	No
10	No	~~Single~~	~~90K~~	~~Yes~~

而Matital Status=Single, Divorced的时候，Defaulted Borrower=No，Yes（1,3），所以仍然需要继续分。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
2	No	~~Married~~	~~100K~~	No
3	No	Single	70K	No
5	No	Divorced	95K	Yes
6	No	~~Married~~	~~60K~~	No
8	No	Single	85K	Yes
9	No	~~Married~~	~~75K~~	No
10	No	Single	90K	Yes

（d）只剩下最后一个属性Annual Income了，这个是数值型的属性，需要找到临界点，使用二分法，把80K选做临界点可以将它们分开。<80K的均不违约，>80K的均违约。

ID	Home Owner	Marital Status	Annual Income	Defaulted Borrower
3	No	Single	70K	No
5	No	Divorced	95K	Yes
8	No	Single	85K	Yes
10	No	Single	90K	Yes

这时结果就很明显了，将其分为（0,1）和（3,0）两个子树。Defaulted Borrower均为单一类别。

总结一下，其实这个算法的意思就是，先选Defaulted Borrower作为树节点，但是存在两种类别（7,3），不能一定确认分类结果，所以继续看是否为Home Owner，当Home Owner=Yes时，Defaulted Borrower=No（3,0），但是当其=No时，Defaulted Borrower仍存在两种类别（4,3）；所以继续看Marital Status，当其=Married时，Defaulted Borrower=No（3,0），但当其=Yes时，Defaulted Borrower仍存在两种类别（1,3）；所以继续看Annual Income，当其<80K时，Defaulted Borrower=No（1,0），当其>=80K时，Defaulted Borrower=Yes（0,3），均为单一类别。这样就完成了所有记录的分类。

3. 决策树归纳的设计问题

如何拆分训练集？

-指定测试条件（取决于属性类型）

-评估测试条件是否良好

如何终止拆分进程？

-所有记录属于同一类或具有相同的属性值

-提前终止

4. 测试条件的表示方法

取决于属性类型（二元Binary，名词性词Nominal，有序型Ordinal，连续型Continuous）
取决于拆分方式（2路拆分2-way split，多路拆分multi-way split）

4.1 名词性属性的测试条件

4.2 有序属性的测试条件

4.3 连续属性的测试条件

基于连续属性的拆分有两种方法：（1）离散化形成有序的分类属性，静态：一开始就离散化；动态：每一个结点都重复这个过程（2）二分法：（A<v）or（A>v），找到所有可能的拆分点，并寻找其最优；计算量会很大。

5. 如何决定最佳拆分？

贪婪法：纯度更高的分布的结点被优先选取
需要结点的杂质值
介绍增益值Gain：计算拆分前的杂质值（P）；计算拆分后的杂质值（M）；分别计算每个子节点的杂质值再按加权累加即可；选择能使Gain=P-M达到最大的属性测试条件。或者说，拆分后杂质值最小。

5.1 结点杂质值的测量方法---Gini Index（基尼指数）

$Gini Index = 1-\sum_{i=0}^{c-1}pi(t)^{2}$

这里pi(t)是结点t上类别i的频率，c是类别总数。

最大值为1-1/c，这时每一种类别的分布都相等，是分类的最差结果，杂质最高。
最小值为0，这时所有记录都属于同一类别，是分类的最好结果，杂质最低。

图4 计算单一结点的基尼指数

5.1.1 分类属性计算基尼指数

变种：

$GINI_{split} = \sum_{i=1}^{k} \frac{n_{i}}{n}GINI(i)$

这里 $n_{i}$ =子节点i的记录个数，n=父节点的记录个数。选择使孩子结点的加权基尼指数最小的属性。

图5 计算结点组的基尼指数

5.1.2 连续属性计算基尼指数的方法

为了提高计算效率：对每个节点采取如下措施：

按值给属性排序
线性浏览这些值，每一次更新矩阵值并计算基尼指数
选择基尼指数最低的分割位置。

图6 计算连续属性的基尼指数

5.2 结点杂质值的测量方法---熵Entropy

$Entropy=-\sum_{i=0}^{c-1}p_{i}(t)log_{2}p_{i}(t)$

这里 $p_{i}(t)$ 是类i在结点t的频率，c是类的总数。

最大值是 $log_{2}c$ ：此时记录的所有类别均匀分布，代表分类的最差情况。
最小值是0：此时所有记录均属于同一类别，代表分类的最好情况。
熵计算和基尼指数计算很类似

图7 单一结点的熵计算

5.3 结点杂质值的测量方法---分类错误Classification Error

$Error(t)=1-max_{i}[p_{i}(t)]$

最大值是1-1/c：此时这时每一种类别的分布都相等，是分类的最差结果。
最小值是0：此时所有记录均属于同一类别，代表分类的最好情况。

图8 单一结点计算分类错误值

6. 比较以上杂质测量方法

图9 二分法问题的杂质值结果

6.1 Misclassification Error vs Gini Index

这两张图的大概意思就是分类方法变化了，Gini指数跟着变，但是分类错误值并没有跟着变，而熵和Gini指数很类似，所以第三种方法一般不用。

7. 基于决策树的分类优缺点

优点：

（1）易于构造

（2）分类未知记录时速度极快

（3）易于解释小型树

（4）抗噪能力强大（尤其是在采用避免过度拟合的方法时）

（5）可以轻松处理冗余或不相关的属性（除非属性进行交互）

缺点：

（1）可能的决策树的空间成倍增加。贪心法通常无法找到最好的树。

（2）不考虑属性之间的交互

（3）每个决策边界仅涉及一个属性

LangWeiXian_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
basic_classification

1. 分类的定义给定一个训练集 ---每条记录的特征用元组(x, y)表示，其中x是属性集，y是类标签。 x：可以是，属性，预测变量，自变量，输入 y：类，响应，因变量，输出任务：学习一个模型，这个模型将每一个属性集x映射到一个预定义类标签y 图1...
复制链接

扫一扫