今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。
00 Index
01 异常检测的概念
02 异常检测的难点
03 异常检测的分类及常见算法
01 异常检测的概念
异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们风控领域很多地方都会用到,比如黑产对抗、团伙欺诈识别、羊毛党识别、反洗钱、识别欺诈贷款等等,对我们的风险控制工作,有着不可或缺的作用。抽象来说,就是需要从一堆数据中,找到那个“邻舍不同”(粤语)的点,并能够给出合理的判断和解释。
02 异常检测的难点
为什么说异常检测很难呢?主要有几个原因:
1)异常点和噪声会混杂在一起,机器难以具体识别开来;
2)现实中很少有异常点的标签,因为标签越多也就意味着遇到过的异常越多,也不符合常识认知;
3)对于标签的定义也是很难,比如1个金融场景,欺诈的定义有太多,比如薅羊毛的、团伙骗贷的、个人骗贷的,基本上都混合在一起,不利于有监督模型的开展。
所以很多时候我们在操作的过程中,会先用无监督方法挖掘出异常样本,再基于这些样本去做有监督模型挖掘更多的异常点,这中间也多了一层转化,所以准确率和置信度上也有一定的下滑。
03 异常检测的分类及常见算法
在开始将异常检测算法的分类前,我们先来了解下异常点的分类:
1.点异常:个体表现异常与大众。
2.上下文异常:一般在时间序列中表现,某个时间点的指标相对前后时间段有较大波动的。比如某个中午交易量异常。
3.集合异常:某一堆的数据集合,整体表现异常,但看单个个体又没那么异常的,比如说地方性团伙骗贷。
好了,讲完了异常点的分类,来讲一下异常检测算法的分类吧。
0301 基于统计检验与分布算法
说起异常点检测,最容易想到的就是这个正态分布图<