风控基础指标之决策树的特征选择

摘要:目前主要的决策树算法有ID3、C4.5和CART,在各种不同的软件选择使用决策数时,也有分裂依据的指标选择,主要包括熵(Entropy)、基尼不纯度(Gini impurity)和分类误差率(Misclassification);除了这些指标,C4.5和ID3在对比不同剪枝方法时还会有信息增益和信息增益比。本文以二分类问题为例,主要介绍不同指标的含义、这些指标可以衡量分枝好坏的原因(数学含义及实际含义)以及使用时的注意事项;除此之外,也会介绍信息增益和信息增益比的区别。

首先,构建一个决策树情景,使用网络上耳熟能详的案例(高尔夫球案例):

Table1. PLAY GOLF DATASET

PLAY GOLF DATASET
ID OUTLOOK TEMPERATURE HUMIDITY

WINDY

PLAY
1 SUNNY 85 85 FALSE NO
2 SUNNY 80 90 TRUE NO
3 OVERCAST 83 78 FALSE YES
4 RAIN 70 96 FALSE YES
5 RAIN 68 80 FALSE YES
6 RAIN 65 70 TRUE NO
7 OVERCAST 64 65 TRUE YES
8 SUNNY 72 95 FALSE NO
9 SUNNY 69 70 FALSE YES
10 RAIN 75 80 FALSE YES
11 SUNNY 75 70 TRUE YES
12 OVERCAST 72 90 TRUE YES
13 OVERCAST 81 75 FALSE YES
14 RAIN 71 80 TRUE NO

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

目标变量为是否打高尔夫(PLAY);

可用变量有天气(OUTLOOK)、气温(TEMPERATURE)、相对湿度(HUMIDITY)和是否有风(WINDY)。

决策树在做特征选择时,依据限制条件,遍历所有特征及所有特征的分法,计算不同分法带来的信息增益或信息增益比,选择满足阈值条件的使信息增益(比)最大的分法。限制条件的类型包含叶结点的样例个数,分枝的枝数等。一般而言,离散变量直接按照离散值做切分,连续变量按照分割值的中位数进行切分。

以高尔夫的例子对数据进行查看,Fig1显示不同的类别在特征outlook和humidity内是如何分布的:

Fig1.Scatterplot of golf playing

注:图中红色代表class为Yes,蓝色代表class为No; Outlook中值0为sunny,值1为overcast,值2为rainy;rainy中humidity为80的蓝点和两个红点重合,sunny里70处有两个红点重合。

我们以Outlook为例,先进行特征分裂和筛选,第一步建立的树如下,Fig2:

                                        

Fig2.Decision tree of g

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值