kaggle数据分类散读+(特征工程+ROC曲线+分类的几大指标召回率、精确度、敏感度和特异度+ISO精度曲线)

本文探讨了如何运用LGB模型和特征工程方法处理身份信息盗用的预警问题。通过特征相关性分析、拆解、时间特征提取和统计特征构建,优化数据。模型采用LGB的单模融合策略,结合ROC曲线和ISO精度曲线确定最佳分类阈值,以提升二分类的性能。此外,AUC作为评价标准,衡量模型的预测能力。
摘要由CSDN通过智能技术生成

使用模型:LGB模型,融合模型
使用场景:从数据层面来证明是否有人正在尝试窃取或验证非法获取的身份信息,又或者正在使用窃取的身份信息,以此来提前进行风险预警和处置(二分类)
特征工程:

  1. 特征相关性分析,将相关性大的数据进行组合
  2. 特征拆解,将类别数少的特征进行拆解,得到多个特征(如01)
  3. 时间特征,将时间的延迟、时间的间隔,通过时间得到的样本次序,这些特征考虑进去
  4. 统计特征,将属性个数进行统计
  5. labelEncoder标签编码,如one_hot

模型构造:使用了LGB模型(使用若干弱分类器的融合得到一个强分类器),再用多个LGB模型的预测结果输入到新的LGB模型中进行预测,进一步融合(单模融合)

ROC曲线:横坐标为FPR,纵坐标为TPR,绘制流程是通过改变分类阈值来获得不同的FPR、TPR
如何获得最佳分类阈值?使用ISO精度曲线
ISO精度曲线:在固定y=ax+b的斜率的情况下,改变截距,将ISO逐渐向左上角移动,使得iso与ROC曲线相交点仅为一点,该处的分类阈值为最佳分类阈值。
AUC(Area Under Curve)为ROC对分类模型的评判标准,越大越好,计算方法:可以使用离散积分的概念,也可以使用排序法
其中n0为金标准中正样本的个数,n1为金标准中负样本的个数,ri为对该i样本预测为正样本的score阈值进行排序的序号,score越大的则排序越高
AUC排序法计算公式
ROC
真阳性率(True Positive Rate,TPR)=TP/(TP+FN),灵敏度和召回率
假阳性率FPR=FP/(FP+TN)
精确度precision=TP/(TP+FP)
indicators

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值