用户分群与建模

用户分群是将人群细分以增强模型性能,通常可提高5%-10%。分群目的包括减少组内差异,增强组间差异。分群方法包括基于业务经验、统计预测(如K-means、GMM)和业务需求。通过场景示例展示了额度使用率在无延滞和有延滞客群中的区分作用。分群后的单独建模或加入分群变量能有效提升模型效果。
摘要由CSDN通过智能技术生成

  用户分群是指根据某些规则将人群进行细分,细分之后的每类客户具有明显区别于其他群体的特征。这样就可以对同质客群单独建模进行分析,从而提高模型的性能。通常情况下,基于客群细分的一套模型比一个用于所有客户的单模型通常可以提高5%到10%的性能。

目录

一.分群目的
二.如何进行分群

  • 2.1 基于业务经验
  • 2.2 基于统计预测
  • 2.3 基于业务需求

三.场景示例
四.总结

一、分群目的

  分群的目的是根据组内差异小、组件差异大的特性将客群进行细分,原理上类似于无监督的聚类。因为某些单一变量虽然对整体客群有鉴别力,但不一定对特定客群也具有鉴别力。比如,年龄这个变量对整体客群的好坏有区分度,如下图:
在这里插入图片描述

  但是如果将申请样本分为高收入组和低收入组,情况变成下图:
在这里插入图片描述

  可以看到在高收入组中,各年龄区间的差异并不明显,区分度并不强。因此如果能替每个分组找出适合的变量与模型,就可以大幅度提升整体模型的性能。

二、如何进行分群

2.1 基于业务经验
  基于业务经验是指按照历史经验法则先行找出可能有效的分群变量,之后再由统计分析结果验证分群是否有效。如负债率低、DTI低的优质客群、无借款记录信用卡少的征信类白户、信贷账户多且历史长无逾期的消费活跃年轻群体等。这种划分方式就和用户画像类似,不过用户画像是用来做入模变量的标签的,而客户分群主要是用来建子模型。客户分群后也可以作为入模变量,这就涉及到分群变量如何建模的问题,求是汪老师在文章中介绍过方法。

方案一:分群单独建模
step 1. 对于N个分群单独建立N个子模型。同时,根据不同分群的特点构造新特征来提升子模型性能。
step 2. 将子模型分数作为新的特征x,以及原样本的目标变量y,训练一个组合主模型。或者,将子模型分数校准到同一尺度,可以参考文章《信用评分卡模型分数校准》。

方案二: 加入分群变量
step 1. 加入分群变量,只训练一个模型。
step 2. 在模型选择上:对于树模型而言,自动选择分群变量进行分裂群体来拟合;对于线性评分卡模型而言,增加新的维度,在高维空间进行拟合。

2.2 基于统计预测
  基于统计预测的方法如决策树、聚类分析,借此找出对表现指标有预测意义的分组变量。比如以下这个例子:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值