常用的特征衍生 计数:过去1年内申请贷款的总次数求和:过去1年内的网店消费总额比例:贷款申请额度与年收入的占比时间差:第一次开户距今时长波动率:过去3年内每份工作的时间的标准差 特征的分箱 分箱的定义: 将连续变量离散化,如收入将多状态的离散变量合并成少状态,如职业 分箱的重要性: 稳定性:避免特征中无意义的波动对评分带来的波动健壮性:避免了极端值的影响 分箱的优势: 可以将缺失值作为独立的一个箱带入模型中将所有变量换到相似的尺度上 分箱的限制: 计算量大分箱后需要编码 分箱的方法: 有监督:BestKS(二分类),ChiMerge(多分类)——两种都针对连续变量无监督:等频,等距,聚类