如何能快速高效的构建出一版满意的评分卡模型,sklearn库帮我们轻松搞定一切。小编今天就将能在评分卡中用到的sklearn库中的函数一一总结归纳,python的同学有福啦!
数据预处理篇
1、数据标准化
函数:sklearn.Preprocessing.StandardScaler
用法:from sklearn.Preprocessing import StandardScaler
#标准化,返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)
2、数据归一化
函数:sklearn.preprocessing.Normalizer
用法:from sklearn.preprocessing import Normalizer
#归一化,返回值为归一化后的数据
Normalizer().fit_transform(iris.data)
3、对定量特征二值化
函数:sklearn.preprocessing.Binarizer
用法:from sklearn.preprocessing import Binarizer
#二值化,阈值设置为3,返回值为二值化后的数据
Binarizer(threshold=3).fit_transform(iris.data)
4、定性特征哑编码
函数:sklearn.preprocessing.OneHotEncoder
用法:from sklearn.preprocessing import OneHotEncoder
5、缺失值计算
函数:sklearn.preprocessing.Imputer
用法:from sklearn.preprocessing import Imputer
#缺失值计算,返回值默认为mean(均值)
Imputer().fit_transform(vstack((array([nan, nan, nan, nan]),iris.data)))
通知