建模流程中,非常重要同时又容易被大家忽视的一个环节就是稳定性问题。建模过程中的稳定性,一般包括特征稳定性和模型稳定性。
1)特征稳定性
关注该特征的取值随着时间的推移会不会发生大的波动。这一点需要在建模之前完成,从一开始就避免将那些本身不太稳定的特征选入模型。通常采用PSI(PopulationStability Index,群体稳定性指数)指标评估特征稳定性。
2)模型稳定性
模型稳定性涉及的东西比较多,需要根据模型的具体应用方式选择性进行关注。通常,模型PSI是必须关注的一个指标。
需要的增强稳定性操作:
1 消除波动性
对于二分类模型,在实际业务中通常会直接拿着prediction_prob去用。例如,对于某个风险识别场景,根据prediction_prob对用户进行准入或拦截(假如设定阈值为0.6,则prediction_prob小于0.6的用户被拦截,不小于0.6的用户被准入)。
为了消除double型可能带来的波动性,可以将小数映射为整数再使用,我们将这个过程称为Rank。具体要将0~1的小数值映射到1~10还是1~100亦或是1~1000的整数区间,完全取决于应用场景对这个数值的精细化程度。(例如,某信用风险模型在10月份对用户小C的打分为0.61,在11月份的打分为0.69(假如打分的差异仅仅因为该用户在双11期间疯狂买买买所致,而事实上短暂性的买买买并不应该对用户的信用风险评估造成影响),如果映射为1~10的整数区间后,连续两个月份的打分都