使用模型:LGB模型,融合模型
使用场景:从数据层面来证明是否有人正在尝试窃取或验证非法获取的身份信息,又或者正在使用窃取的身份信息,以此来提前进行风险预警和处置(二分类)
特征工程:
- 特征相关性分析,将相关性大的数据进行组合
- 特征拆解,将类别数少的特征进行拆解,得到多个特征(如01)
- 时间特征,将时间的延迟、时间的间隔,通过时间得到的样本次序,这些特征考虑进去
- 统计特征,将属性个数进行统计
- labelEncoder标签编码,如one_hot
模型构造:使用了LGB模型(使用若干弱分类器的融合得到一个强分类器),再用多个LGB模型的预测结果输入到新的LGB模型中进行预测,进一步融合(单模融合)
ROC曲线:横坐标为FPR,纵坐标为TPR,绘制流程是通过改变分类阈值来获得不同的FPR、TPR
如何获得最佳分类阈值?使用ISO精度曲线
ISO精度曲线:在固定y=ax+b的斜率的情况下,改变截距,将ISO逐渐向左上角移动,使得iso与ROC曲线相交点仅为一点,该处的分类阈值为最佳分类阈值。
AUC(Area Under Curve)为ROC对分类模型的评判标准,越大越好,计算方法:可以使用离散积分的概念,也可以使用排序法
其中n0为金标准中正样本的个数,n1为金标准中负样本的个数,ri为对该i样本预测为正样本的score阈值进行排序的序号,score越大的则排序越高
真阳性率(True Positive Rate,TPR)=TP/(TP+FN),灵敏度和召回率
假阳性率FPR=FP/(FP+TN)
精确度precision=TP/(TP+FP)