信用卡逾期项目初探(特征处理和机器学习)
接信用卡逾期项目初探(数据清洗与特征选择)的下文,是继续进行特征处理和模型建立。
三、特征处理
由于我们选的六种特征,有连续变量和离散性变量,额度的范围是0-100000,还款状态是-2到9的离散型变量,不同维度的量化,会对后面建立模型,因此我们需要进行相关的特征处理,使得其在统一量化的标准下。
当然,特征处理有很多方法可选择,比如是最小最大规范化、归一化、标准化、独热、对指化、标签化等等,如何选择是一个问题。以下是我的一些整理,有点乱。
# 对指化:指数:差距小,并不能明显 对数:差距大,缩放到较小
# np.log()
# np.exp()
# 离散化
# 连续变量分为几段(bins) 克服数据缺陷、某些算法要求、非线数据映射
# 三种离散: 等频、等距、自因变量优化
# 分箱:首先要排序 深度(数的个数)与宽度(数的区间)
lst = [6,8,10,15,16,24,25,40,67]
# 等深分箱
pd.qcut(lst,q=3)
pd.qcut(lst,q=3,labels = ["low","medium","high"])
# 等宽分箱
pd.cut(lst,bins=3,labels = ["low","medium","high"])
# 归一化()
# x=x-xmin /xmax-xmin 将数据纳入0-1
# 标准化 均值为0,标准差为1
from sklearn.preprocessing