x
1
,
x
2
,
⋯
,
x
N
}
\left{x^{1}, x^{2}, \cdots, x^{N}\right}
{x1,x2,⋯,xN}和一组异常的数据
{
x
~
1
,
x
~
2
,
⋯
,
x
~
N
}
\left{\tilde{x}^{1}, \tilde{x}^{2}, \cdots, \tilde{x}^{N}\right}
{x1,x2,⋯,x~N},一起训练一个二分类的分类器。但是有个问题是异常数据并不是一种类型,无法视为一个class,只要是非正常的都是异常,如下图所示。而且实际中的异常数据也是小概率事件的,比如网络攻击,比如诈骗交易,会有正负样本不均匀的情况:
给定训练数据,并且带有某种类型的label
{
y
^
1
,
y
^
2
,
⋯
,
y
^
N
}
\left{\hat{y}^{1}, \hat{y}^{2}, \cdots, \hat{y}^{N}\right}
{y1,y2,⋯,y^N},使用这些数据先训练一个classifier。数据和label中并没有unknown,但是期望classifier在遇到一个未知数据时能给出unknown的判定。也被称为Open-set Recognition。
还有一种是训练数据是没有标签的,通过相似度来判断异常数据。这里面又分两种情况,一种是训练数据是clean,一种是polluted。
2 With Classifier
2.1 Base Method
给定一组Simpsons家族人物的数据,判断
x
x
x是否来自该家族: