最近看的一些风险信贷相关的一些写的比较详细的博客,还有使用sklearn进行特征工程的博客,单纯的进行简单整理和记录,详细的可以点击链接。
1.Python案例分析之客户信贷预测模型
来自 https://blog.csdn.net/weixin_43656359/article/details/104683553
文章发布于2020-3-14
该网页中内容主要介绍了客户信贷预测的一般流程,主要包括数据清洗、建模、预测三部分,使用的数据集是Lending club平台的业务数据,共有52个变量,39522条记录。
详细步骤如下:
- 对数据集中缺失率超过一半的列进行剔除
- 样本中对银行评定是否放贷并没有任何影响,与预测没有关系的标签,结合实际情况进行剔除。
- 去掉标签中只有一种属性的列
- 对数据进行LabelEncoder 或者OneHotEncoder编码
- 处理缺失值,对于缺失量不是很多的数据,可以直接去掉缺失值所在的行。对于缺失量比较多的数据,说明该数据存在的问题,再将该特征进行删除
- sk-learn库不接受字符型的数据,将特征中的字符型数据进行处理,该部分使用了get_dummies(),get_dummies就是OneHotEncoder类型编码。