1. 异常检测小结
异常检测本质上就是找不同,找到检测异常的点或者数据。李宏毅老师在异常检测这部分介绍了两种方法。分别用来处理带 label 的数据以及不带 label 的数据。
1.1 带 label 的数据
对于带 label 的数据(此处要求数据不含杂质,即数据不包含异常值点),我们可以训练一个分类器,得到每个数据的类别以及信心分数。比如对于火影忍者的人物,我们可以训练一个分类器,将其分为鸣人、佐助、雏田等等。这个时候,如果我们给分类器一个柯南的图片,分类器也会将其分为火影中的某一类人物,但是由于分类器从来没见过柯南,或者是柯南和火影里面的人物画风都不一样,这个时候分类器认为其属于各个人物的概率都是很低的,换句话说,分类器没把握把柯南分为任何一个火影人物。
接下来,我们可以根据信息分数将其分为异常点还是正常点,信心分数低的就会被分为异常点。
1.2 不带 label 的数据
不带 label 的数据,我们就可以去用一个概率密度函数去拟合数据的分布,将概率密度低的点划分为异常点。如下面这个图,我们可以使用一个二元的正态分布去拟合下面的数据,最终概率密度值比较低的数据点就会被归为异常点。