basic_classification

1. 分类的定义

     给定一个训练集

     ---每条记录的特征用元组(x, y)表示,其中x是属性集,y是类标签。

        x:可以是,属性,预测变量,自变量,输入

        y:类,响应,因变量,输出

    任务:学习一个模型,这个模型将每一个属性集x映射到一个预定义类标签y

                                    

                                                      图1:建立分类模型的一般方法                   


 

 

 

                                                            图2:一个决策树例子


2. 亨特算法--递归法(最早的分类算法之一)

  • 选择结果类Dt作为训练集的起点。

  • 如果Dt包含的结果属于同一个类别yt,那么t就是被标记为yt的一个叶子结点。

  • 如果Dt包含的结果有多个类别,就使用一个属性测试把数据分成更小的子集。整个子集递归执行这个过程。
IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

                                                               表1:违约借款人

 

                                                                 图3:亨特算法流程 

这张图的意思是:

(a)选择结果类Defaulted Borrower为树根,其中No和Yes的个数是(7,3),很明显这里面有两个类别,Yes和No。所以要继续往下分,选择其他的属性集。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

(b)选择属性Home Owner来替换Defaulted Borrower。它也有两个类别Yes和No,当Home Owner=Yes的时候,选中了3条记录。而这3条记录的Defaulted Borrower=No(3,0),便将Defaulted Borrower作为叶子结点,无需再递归。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 而剩下的7条Home Owner=No的情况,他们之中Defaulted Borrower仍然有两种类别(4,3),所以仍需继续分下去。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 (c)将属性Marital Status加入子结点中,这里是名词性的属性,有3类,选择二分法,Single和Divorced按照常识都是单身,分为一种,而Married成为另一种。而Marital Status=Married的人,无一例外Defaulted Borrower=No(3,0),所以可以单独成为叶子结点。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 而Matital Status=Single, Divorced的时候,Defaulted Borrower=No,Yes(1,3),所以仍然需要继续分。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 (d)只剩下最后一个属性Annual Income了,这个是数值型的属性,需要找到临界点,使用二分法,把80K选做临界点可以将它们分开。<80K的均不违约,>80K的均违约。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
3NoSingle70KNo
5NoDivorced95KYes
8NoSingle85KYes
10NoSingle90KYes

这时结果就很明显了,将其分为(0,1)和(3,0)两个子树。Defaulted Borrower均为单一类别。

总结一下,其实这个算法的意思就是,先选Defaulted Borrower作为树节点,但是存在两种类别(7,3),不能一定确认分类结果,所以继续看是否为Home Owner,当Home Owner=Yes时,Defaulted Borrower=No(3,0),但是当其=No时,Defaulted Borrower仍存在两种类别(4,3);所以继续看Marital Status,当其=Married时,Defaulted Borrower=No(3,0),但当其=Yes时,Defaulted Borrower仍存在两种类别(1,3);所以继续看Annual Income,当其<80K时,Defaulted Borrower=No(1,0),当其>=80K时,Defaulted Borrower=Yes(0,3),均为单一类别。这样就完成了所有记录的分类。


3. 决策树归纳的设计问题

  • 如何拆分训练集?

-指定测试条件(取决于属性类型)

-评估测试条件是否良好

  • 如何终止拆分进程?

-所有记录属于同一类或具有相同的属性值

-提前终止


4. 测试条件的表示方法

  • 取决于属性类型(二元Binary,名词性词Nominal,有序型Ordinal,连续型Continuous)
  • 取决于拆分方式(2路拆分2-way split,多路拆分multi-way split)

4.1 名词性属性的测试条件

4.2 有序属性的测试条件 

 4.3 连续属性的测试条件

基于连续属性的拆分有两种方法:(1)离散化形成有序的分类属性,静态:一开始就离散化;动态:每一个结点都重复这个过程(2)二分法:(A<v)or(A>v),找到所有可能的拆分点,并寻找其最优;计算量会很大。


5. 如何决定最佳拆分?

  •  贪婪法:纯度更高的分布的结点被优先选取
  • 需要结点的杂质值
  • 介绍增益值Gain:计算拆分前的杂质值(P);计算拆分后的杂质值(M);分别计算每个子节点的杂质值再按加权累加即可;选择能使Gain=P-M达到最大的属性测试条件或者说,拆分后杂质值最小。

5.1 结点杂质值的测量方法---Gini Index(基尼指数)

                                                                           Gini Index = 1-\sum_{i=0}^{c-1}pi(t)^{2}     

这里pi(t)是结点t上类别i的频率,c是类别总数。

  • 最大值为1-1/c,这时每一种类别的分布都相等,是分类的最差结果,杂质最高。
  • 最小值为0,这时所有记录都属于同一类别,是分类的最好结果,杂质最低。

                                                     图4 计算单一结点的基尼指数

5.1.1 分类属性计算基尼指数

变种:

                                                                           GINI_{split} = \sum_{i=1}^{k} \frac{n_{i}}{n}GINI(i)

这里n_{i}=子节点i的记录个数,n=父节点的记录个数。选择使孩子结点的加权基尼指数最小的属性。

                                                      图5  计算结点组的基尼指数

5.1.2 连续属性计算基尼指数的方法

为了提高计算效率:对每个节点采取如下措施:

  • 按值给属性排序
  • 线性浏览这些值,每一次更新矩阵值并计算基尼指数
  • 选择基尼指数最低的分割位置。

                                                          图6 计算连续属性的基尼指数

 

5.2 结点杂质值的测量方法---熵Entropy

                                                                     Entropy=-\sum_{i=0}^{c-1}p_{i}(t)log_{2}p_{i}(t)                            

这里p_{i}(t)是类i在结点t的频率,c是类的总数。

  • 最大值是log_{2}c:此时记录的所有类别均匀分布,代表分类的最差情况。
  • 最小值是0:此时所有记录均属于同一类别,代表分类的最好情况。
  • 熵计算和基尼指数计算很类似

                                                           图7 单一结点的熵计算

5.3 结点杂质值的测量方法---分类错误Classification Error

                                                                    Error(t)=1-max_{i}[p_{i}(t)]

  • 最大值是1-1/c:此时这时每一种类别的分布都相等,是分类的最差结果。
  • 最小值是0:此时所有记录均属于同一类别,代表分类的最好情况。

                                              图8 单一结点计算分类错误值


6. 比较以上杂质测量方法

 

                                                       图9 二分法问题的杂质值结果

6.1 Misclassification Error vs Gini Index 

这两张图的大概意思就是分类方法变化了,Gini指数跟着变,但是分类错误值并没有跟着变,而熵和Gini指数很类似,所以第三种方法一般不用。


7. 基于决策树的分类优缺点

  • 优点:

(1)易于构造

(2)分类未知记录时速度极快

(3)易于解释小型树

(4)抗噪能力强大(尤其是在采用避免过度拟合的方法时)

(5)可以轻松处理冗余或不相关的属性(除非属性进行交互)

  • 缺点:

(1)可能的决策树的空间成倍增加。 贪心法通常无法找到最好的树。

(2)不考虑属性之间的交互

(3)每个决策边界仅涉及一个属性

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值