【论文详读】Density weighted support vector data description

最新推荐文章于 2024-03-14 17:36:46 发布

erdaidai

最新推荐文章于 2024-03-14 17:36:46 发布

阅读量391

点赞数

分类专栏： python 机器学习论文精读

本文链接：https://blog.csdn.net/erdaidai/article/details/112231753

版权

机器学习同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

python

11 篇文章 0 订阅

订阅专栏

论文精读

6 篇文章 0 订阅

订阅专栏

本文探讨了初始支持向量数据描述符(SVDD)算法的基础上，引入密度权重(DW-SVDD)，通过调整样本点的重要性来提升模型的泛化能力。介绍了目标函数的变化，拉格朗日对偶形式，以及如何通过二次规划求解支持向量。代码实现部分展示了如何计算样本权重并应用到DW-SVDD中。

摘要由CSDN通过智能技术生成

Density weighted support vector data description

算法思想
- 初始SVDD
- DW-SVDD
代码实现

算法思想

初始SVDD

目标函数：
$\min R^2 + C\sum_{i = 1}^l\xi_{i} \\ \\ s.t.\ \ || \boldsymbol{x}_{i} - \boldsymbol{a}|| \leq R^2 + \xi_{i}, \xi_{i} \geq 0 \ \ \forall_{i}$
结合拉格朗日乘子法，原问题的对偶变成：
$\max \sum_{i = 1}^l \alpha_{i}(x_{i}, x_{i}) -\sum_{i = 1}^l\sum_{j = 1}^l \alpha_{i}\alpha_{j}(x_{i}, x_{j})\\ s.t. \ \ 0 \leq \alpha_{i} \leq C \ \ \ i = 1, 2, \dots, l \\ \sum_{i = 1}^l \alpha_{i} = 1$
通过二次规划求解 $\alpha_{i}$ , 详细参考这篇文章，找出 $\alpha_{i} \geq 0$ , 即可得到支持向量，再根据支持向量就可以算出半径 $R$ 和中心 $a$ ，这样就可以找到超球边界。

DW-SVDD

算法的思想是不仅为每个样本点设置松弛因子 $\xi_{i}$ ，而且还设置密度加权 $\rho_{i}$ 。其认为密度越大的地方，样本越重要，在拟合超球边界的时候，应该“贡献”更大。
密度权重：
$\rho(x_{i}) = 1 - \frac{d(x_{i}, x_{i}^k)}{\max_{j \in train\ set}d(x_{j}, x_{j}^k) }$
这里用到了 k-nearest neighbor (k-NN) distance， $d(x_{i}, x_{i}^k)$ 表示 $x_{i}$ 和第 $k$ 近的样本点 $x_{i}^k$ 的距离， $\max_{j \in train\ set}d(x_{j}, x_{j}^k)$ 表示在训练集中最大的k-NN距离。在密度较大的样本点 $\rho(x_{i})$ 就越大，反之越小。

DW-SVDD的目标函数就变成：
$\min R^2 + C\sum_{i = 1}^l \rho(x_{i})\xi_{i} \\ \\ s.t.\ \ || \boldsymbol{x}_{i} - \boldsymbol{a}|| \leq R^2 + \xi_{i}, \xi_{i} \geq 0 \ \ \forall_{i}$

结合拉格朗日乘子法，原问题的对偶问题变为：
$\max \sum_{i = 1}^l \alpha_{i}(x_{i}, x_{i}) -\sum_{i = 1}^l\sum_{j = 1}^l \alpha_{i}\alpha_{j}(x_{i}, x_{j})\\ s.t. \ \ 0 \leq \alpha_{i} \leq \rho(x_{i}) C \ \ \ i = 1, 2, \dots, l \\ \sum_{i = 1}^l \alpha_{i} = 1$

不同点就是在二次规划求解 $\alpha_{i}$ 时， $G$ 有变化，之前时 $C$ ，现在是 $\rho(x_{i})$ 。

疑问：在这个地方，我个人有问题，SVDD本身是要调节 $C$ 的，所以 $\rho(x_{i})C$ 两个一起作用的时候， $\rho(x_{i})$ 肯定是一定的，那么我们还是可以调节 $C$ , 让 $C_{1} = \rho C_{2}$ ，使最后的效果是一样的，只是说法不同。

已解答： $C_{1}$ 和 $\boldsymbol{\rho} C_{2}$ 实际上肯定是不一样的，不然论文也不得发出来了😂。因为 $\boldsymbol{\rho}$ 是一个向量，对应每个 $x$ 都有一个 $\rho$ ，在某个取值时，可能 $C_{1} = \rho(x_{i})C_{2}$ ，也只会等于其中的某个或者某几个值，也不会全部相等，这体现出了考虑每个样本重要性的作用。