2018.8.6 利用卡方检验选择变量阈值

                                 利用卡方检验选择变量阈值

目录

场景

原理

问题

实例

后语


场景

在规则制定时,面对连续型变量,往往需要选取一个阈值,用以界定好坏客户,比如:

                                                                   3个月内多头数大于等于10,拒绝。

这个10就是我们需要事先给定的一个值,那是根据什么来定10,而不是9,8,11,15等其他值。

原理

假定目前已经有一定的样本数据:

客户序号7天多头数1个月多头数3个月多头数是否坏客户
1x_{1}y_{1}3
2x_{2}y_{2}2
...............
mx_{m}y_{m}4

根据“3个月多头数”、“是否坏客户”整理后如下:

3个月多头数好客户数量坏客户数量
0g_{0}b_{0}
1g_{1}b_{1}
2g_{2}b_{2}
.........
ng_{n}b_{n}

现在我们可以设定一个值k∈(0,n),k为整数,将3个月多头数分成2个部分[0,k)和[k,n]。因此上表可以转换成2分表(如下表)。

3个月多头数好客户数量坏客户数量
\left [ 0,k \right )            g_{0} + g_{1}+...+g_{k-1}                b_{0} + b_{1}+...+b_{k-1}
\left [ k,n \right ]            g_{k} + g_{k+1}+...+g_{n}                b_{k} + b_{k+1}+...+b_{n}

这样,就可以通过卡方检验来测试:“3个月多头数(k临界值)”与“客户好坏”是否有关。

(关于卡方检验原理可参考http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C,其中的应用实例2——独立性检验比较容易理解)

(1)零假设H_{0}“3个月多头数(k临界值)”与“客户好坏”无关

(2)确认自由度(2-1)(2-1)=1,选择显著水平\alpha =0.05。由卡方分布表找到临界值3.84。

(3)求对应期望值。

(4)根据公式求卡方值:

                                                                              \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}

(5)比较卡方值和临界值,当\chi ^{2}>3.84时,拒绝零假设,即拒绝“3个月多头数(k临界值)”与“客户好坏”无关。

由此可推断“当3个月多头数被k分为2部分时,对客户是否好坏是有显著区分”,这样k值就可以作为拒绝客户的一个临界值。
 

问题

虽然上面已经可以判定一个给定值k是否具有区分客户好坏能力(比如由业务经验,先设定k=10,通过上述卡方检验可推断10是有效的临界值),但是这个10是否是最优的临界值是无法判定的(比如当k=9的时候,可能会比k=10的时候更具有区分能力)。

于是问题由“判断一个给定的k值是否能有效区分好坏客户”转换为“如何找到最能区分好坏客户的k值

回到这个二分表

3个月多头数好客户数量坏客户数量
\left [ 0,k \right )            g_{0} + g_{1}+...+g_{k-1}                b_{0} + b_{1}+...+b_{k-1}
\left [ k,n \right ]            g_{k} + g_{k+1}+...+g_{n}                b_{k} + b_{k+1}+...+b_{n}

实际上,可以表示为

3个月多头数好客户数量坏客户数量
\left [ 0,k \right )                        G_{0k}(k)                           B_{0k}(k)
\left [ k,n \right ]                        G_{kn}(k)                           B_{kn}(k)

G_{0k}(k)G_{kn}(k)B_{0k}(k)B_{kn}(k)都是关于k的函数。

同理,可以推出卡方值

                                                                                  \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}

也是关于k的函数即

                                                                            \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}=\chi ^{2}\left ( k \right )

于是有

k12...n-1
\chi ^{2}\chi ^{2}\left ( 1 \right )\chi ^{2}\left ( 2 \right )         ...  \chi ^{2}\left ( n-1 \right )

\chi ^{2}取得最大值时,对应的k即为最优值。

通过折线图(横坐标为k,纵坐标为\chi ^{2}),就能轻易找到最优k值。

 

实例

链接:下载地址 密码:g3wk

  • A、B列为数据
  • 对于不同的k值,有不同的卡方值\chi ^{2}
  • k=7时
实际值
3个月多头数好客户数量坏客户数量总计
[0,k)62606896949
[k,20]34480424
总计66047697373

计算出对应期望值

期望值
3个月多头数好客户数量坏客户数量总计
[0,k)6224.222976724.77702436949
[k,20]379.777024344.22297572424
总计66047697373

可求得对应卡方值

卡方值
3个月多头数好客户数量坏客户数量总计
[0,k)0.2056474311.7660541431.971701574
[k,20]3.37038679128.9441279232.31451471
总计3.57603422230.7101820634.28621628

于是对所有k,有

k12345...1819
\chi ^{2}9.4931.1665.3578.671...0.70.58

对应折线图

图表结合可知,当k=4时,为最优临界值,此时可将规则设为:

                                                                   3个月内多头数大于等于4,拒绝

后语

卡方检验只是计算k的其中一种方法,卡方值也是其中一种指标,在实际应用中,还要考虑误杀率,漏杀率,准确率等指标。

此处不表!

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值