【金融风控建模系列】数据篇（二）

从那开始

已于 2024-03-21 11:37:59 修改

阅读量1k

点赞数 27

分类专栏：金融风控建模系列内容文章标签： python 开发语言 pycharm 机器学习 boosting scikit-learn 分类

于 2024-03-15 15:00:18 首次发布

本文链接：https://blog.csdn.net/ANoway/article/details/136646815

版权

金融风控建模系列内容专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第二章数据

文章目录

第二章数据
前言
一、单客群处理
- 1.数据筛选
- 2.对比分析
总结

前言

第二章第一部分围绕数据的存取过程展开，介绍了如何利用python从数据库中抽取数据，并按照客群进行分类。
本章是数据章节的第二部分，该部分将介绍如何从原始数据中找出适合建模的数据。
在此之前，我们先回顾一下基础篇中“数据”小节中的示例，提前了解各个指标的含义。

一、单客群处理

建模之前需考虑使用哪些样本，数据可能会有多个客群，而每个客群会有多个月份，是全部放在一起进行处理，还是分开处理？
若在不同客群坏客户占比差异较大的情况下统一训练，最终会得到的一个用来识别不同客群而不是识别坏客户的模型。这么做已经违背建模的初衷。
所以，在对客群之间联系不知晓的前提下，单客群处理是更优解。

1.数据筛选

在这里插入图片描述
这里把数据分为三个客群A、B、C。A客群共有5个月，每个月的总数据量在2000左右，坏客户数量在100到150之间。B客群共有11个月，大多数月份的总数据量在10000条左右，坏客户数量在2000左右。C客群每个月的总数据量都比较小，坏客户数量基本都小于100。
在选择入模数据的时候，需要遵循一条准则：
总数据量至少要大于10000，最好可以在20000以上；坏客户数量至少超过500。
那么，A客群全体数据入模；B客群符合数量要求的相邻月份入模（相邻月份客群相似，且调用量超过20000），总数据量不超过500的月份不参与入模；C客群全体入模。