1. 缘起
面对的问题是什么?
2. 有标签的情况
2.1 分类问题
如果能够收集到大量的有标签数据,直接训练一个二分类器,就可以结束了。
但是,很多情况下是很难收集anomaly example的。
对于有标签的情况,其中一种是对normal example可以分为C类,那么,可以训练一个分类器,将样本做C分类。对于normal example,被识别为某一类别的概率会非常高。对于anomaly example,被识别为某一类的概率会相对偏低。通过设置阈值
λ
\lambda
λ,来区分anomaly examples.
算法的评估指标选择上,需要考虑实际的需求,而不是简简单单依赖准确率。一些综合性指标,如AOC会比较合适。当然,特殊问题,特殊对待。可以通过加权计算最终的score来做判断。
2.2 扩展阅读
3. 无标签的情况
3.1 极大似然估计
为了简化问题,我们使用二维问题来做说明。
最终,我们想要学习的模型是一个概率模型,根据输入的大量样本,估算概率密度函数的参数。使用的方法,就是极大似然估计法。
对于真实问题,通常都是多维的,下面是多维的情况下的扩展。
3.2 扩展阅读