申请评分卡中的数据预处理和特征衍生
本章文章主要讲解以下内容
- 构建信用风险类型的特征
- 特征分箱
- WOE编码
构建信用风险类型的特征
在我们运用模型之前,我们首先要进行特征工程,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。(下图引用了一幅图片http://www.cnblogs.com/jasonfreak/p/5448385.html)
- 数据预处理
1.原数据带有一定格式,需要转换成正确格式
2.文本类的数据处理方式
主题提取(NLP自然语言处理)