目录
1. 概要
Ref: David M.J. Tax, Robert P.W. Duin, Support vector domain description, PRL1999
SVDD直译过来就是(基于)支持向量(的数据)域描述。
相对于Schölkopf-OCSVM中的(超)平面分割的方法,Tax-Din-SVDD采用了利用特征空间中的(超)球进行分割的. 在Tax-Din-SVDD中,算法对训练样本进行估计得到一个超球包含所有训练样点,并最小化该超球的体积。
2. 数学模型
考虑由N个样本数据构成的训练数据集,目标是找到一个体积最小的超球包括所有(或绝大多数)数据样点。这个超球的体积对于处于最外围的样本非常敏感,如果很少量的样本处于很远的外围,要想把所有数据都包含超球内的话可能会需要非常大的超球。为了解决这个问题,(类似于(Vapnik, 1995))我们引入松弛变量以及惩罚参数C,允许一定的训练样本处于超球之外(即判定为异常样本),以取得模型的简单性(对应于超球的体积)与错误数(位于超球以外的样本个数)之间的折中(trade-off).这是假定原本训练集中所有的样本都属于本类。如果训练集中本身就包含一定的异类数据的话,那这个就不单纯是折中了,而是必需项。
由于半径R和球心a所定义的超球的体积定义如下:
约束条件下最小化超球体积的问题可以表述如下:
基于(1)和(2),引入拉格朗日乘子 ,构造拉格朗日量(Lagrangian)如下:
求偏微分并令其为0,可以得到:
将(4)代入并重写(3)可以得到:
问题转变成了求 使得L最大化的问题。
由以上(4)可知,球心是训练样本的线性组合。
式(2)仅对小一部分数据样本成立,这些数据样本是位于超球的边界,其对应的拉格朗日乘子大于0.这些数据样本被称之为支持向量(support vector),也只有这些样本对于超球(也就是说这个训练集)的描述是必需的。
超球半径R由中心到某支持向量的(基于小于C的权重计算而得的)距离决定。
对于的样本触及了式(4)的上界,并且位于超球以外,这些样本被判定为异常样本。
一个测试数据样本z与球心的距离小于等于R的样本处于超球以内,被判定为本类点,如下式所示;反之则被称为是异类(outlier)点。
3. 引入核函数
以上基本模型中,所有处理都是在输入空间上进行。通常来说,数据样本并不会如此理想地形成一个球形分布,即便忽略掉最外围的一些异类点。因此直接在输入空间上进行处理通常不能得到很紧凑的数据描述。
由于以上模型的核心就在于内积的计算,因此这个模型可以通过用核函数来替换内积的运算得到扩展,即用核函数替换内积计算,只要这个核函数满足Mercer’s theorem.这一替换等价于将输入数据映射到某个特征空间(map from input space onto feature space),如果特征空间的选择(即核函数的选择)适当的话,就可以得到一个更好、更紧凑的数据描述。这一映射并不需要显式地进行,一切都包含在核函数的表达中。
基于此,用替换所有的内积改写(5)和(6)可以得到:
常用的核函数有多项式核函数和高斯核函数,分别表示如下。通常高斯核函数是比多项式核函数更好的选择。
采用高斯核函数的话,以上(7)和(8)表示的拉格朗日量和接受规则分别可以改写为:
其中只依赖于支持向量以及,而与测试数据z无关。
4. Experiment and Analysis
To be added.