非均衡数据分布的分类问题

原文:http://blog.sina.com.cn/s/blog_61c463090102w9js.html

paper学习分享:Large Unbalanced Credit Scoring Using Lasso-Logistic&nbs

2016-03-01 18:38:27

Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble

最近研究风控领域的非均衡数据分布的分类问题,搜集一些paper阅读,在此分享该paper的思想,可以基于实际数据集操作,实验。

中心思想:基于规则化的LR模型作为基础学习器,然后对基础学习器进行集成学习

贡献点:

(1)基于规则化的LR进行ensemble;

(2)数据均衡化处理,基于聚类算法和bagging算法

(3)提出两种新的变量重要性度量方式

数据集:http://www.kaggle.com/c/GiveMeSomeCredit

业务:信用评分

模型:评分卡模型

挑战:数据高度不均衡,数据倾斜

data collected are usually highly unbalanced or skewed,常见算法

Cost-sensitive learning and re-sampling approaches

Lasso-logistic regression ensemble(LLRE)

lasso-LR

bagging Algorithm

LLRE 算法

(1)数据均衡化处理,基于变量的相似性,对majority class进行聚类,得到subgroup数据;

(2)数据多样性处理,对minority class进行resample bagging处理;

(3)合并上述majority 和 minority sub-group数据集,得到sub-dataset;

ensemble方法

加权平均,权重计算

wi = 1 / (1 + exp(-pi)),其中wi表示第i个分类器的权重,pi表示第i个分类器在第i个obs验证数据集上的性能

变量重要性评估

(1)LLR-occurrence measure

The presence or absence of a predictor variable in the Lasso model naturally indicates whether it is closely related to the outcome variable or not

(2)基于AUC decrease确定变量重要性

模型效果比较(基于kaggle数据集)

RunNo LLRE RF LLR CART

1 0.8598 0.857 0.8571 0.7632

2 0.8553 0.8538 0.8526 0.7676

3 0.8662 0.8609 0.8651 0.7786

4 0.8602 0.8576 0.8577 0.7778

5 0.858 0.8564 0.8559 0.7746

6 0.8662 0.8628 0.8638 0.7689

7 0.8544 0.8536 0.8526 0.77

8 0.8619 0.8617 0.8589 0.7749

9 0.8657 0.8606 0.8636 0.7832

10 0.8575 0.8569 0.8561 0.7665

11 0.8622 0.8578 0.8604 0.7762

12 0.8565 0.8551 0.8542 0.7748

13 0.8576 0.8519 0.8573 0.7763

14 0.8573 0.8537 0.8547 0.7761

15 0.8638 0.8648 0.8606 0.7699

16 0.8567 0.8535 0.8547 0.7728

17 0.8586 0.8579 0.8558 0.7783

18 0.8696 0.8631 0.8666 0.7792

19 0.8529 0.8523 0.8506 0.77

20 0.8651 0.8607 0.8609 0.7732

参考paper:

​http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0117844

大数据集下的非均衡数据分布的分类问题更为突出,可以借鉴一些思路引入到实际工作之中,反欺诈等等。​

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值