[论文阅读]：Semi-supervised Multi-instance Learning with Density Peaks Clustering

还在写BUG呢

已于 2022-06-01 16:07:38 修改

阅读量342

点赞数

分类专栏：多示例学习文章标签：聚类机器学习算法

于 2022-06-01 16:04:11 首次发布

本文链接：https://blog.csdn.net/Knight_ZJY/article/details/125085235

版权

多示例学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

[论文阅读]：Semi-supervised Multi-instance Learning with Density Peaks Clustering

时间：2022/5/31

文章目录

[论文阅读]：Semi-supervised Multi-instance Learning with Density Peaks Clustering

1.题目

Semi-supervised Multi-instance Learning with Density Peaks Clustering

密度峰值聚类的半监督多示例学习

2.摘要

文章提出了密度峰值聚类的半监督多示例学习（Semi-supervised Multi-instance Learning with Density Peaks Clustering，SMDP）算法，包含三个步骤：

（１）结合高斯核和五种距离度量，使用基于密度峰值聚类的方法寻找代表包；

（２）基于包之间的距离将每一个包转换为单实例，其第ｉ个属性为它与第ｉ个代表包的距离；

（３）使用转换后的数据训练分类器。

SMDP在文本和图像数据集上的处理效果优异。

3.主要贡献

将密度峰值算法应用MIL中的代表包选择过程中，提高了代表包的选取效率。
对文本数据集和图像数据集分别利用虚拟Hausdorff距离和最小偏差距离。它们具有更高的适用性和更低的时间复杂度。
与现有的算法相比，SMDP在大部分MIL数据集上具有更好的性能。

4.符号系统

符号	含义
X	实例空间
S	数据集
N	数据集大小
c	类标号个数
$S_k,k\in [1...c]$	第k个类的包
$S_i,i\in[1...l]$	带标签的包
$S_u,i\in[l+1,...,N]$	不带标签的包
$B_i$	第i个包
$y_i,i\in[1,...,l]$	第i个包的标签
$l$	数据集 $S_i$ 的大小
$x_{ij}$	第i个包的第j个实例
$d_{ij}$	$B_i与B_j的距离$
$d_c$	cutoff距离
$r$	$d_c的比率$
$\rho_i$	第i个包的密度
$\delta_i$	到包 $B_i的master的距离$
$n_c$	簇中心的个数
$p$	簇中心个数与实例个数的比例
$y_i^`,i\in [l+1...N]$	预测标签

5.密度峰值聚类

大师兄的文章对该算法进行了详细描述，[机器学习之Density Peaks_因吉的博客-CSDN博客_density peaks)

5.1.三种距离

同一标准下，用于计算密度的半径距离。首先是diameter dc距离，其定义为：

$dc_{diameter}=max(\sum_{i=0}^{i<n-1}\sum_{j=i+1}^n{distance(x_i,x_j)})*dc_{ratio}\tag{1}$

第二个距离为average dc距离，定义为：

$dc_{average}=average(\sum_{i=0}^{i<n-1}\sum_{j=i+1}^n{distance(x_i,x_j)})*dc_{ratio}\tag{1}$

第三个距离为min dc,定义为：

$dc_{min}=min(\sum_{i=0}^{i<n-1}\sum_{j=i+1}^n{distance(x_i,x_j)})*dc_{ratio}\tag{2}$

5.2.局部密度

这里也有两种方式计算。首先是使用cutoff核。

$kernel_{cutoff}:ρ_i=\sum_{j=0}^nf(distance(x_i,x_j)−dc)\tag{3}$

其中

$\begin{cases} 0,& \text{x > 0}\\ 1,& \text{x$\le$0} \end{cases}\tag{4}$

在一定的dc范围内，有多少个实例，便密度 $\rho_i$ 就是多少。但会出现具有相同密度的实例。解决方法是：

使用自然优先级，将实例按密度从大到小排列，必然会有先后顺序出现。
使用高斯核。如下：

$kernel_{gaussian}:ρ_i=\sum_{j=0}^ne^{-({distance(x_i,x_j)\over dc})^2}\tag{5}$

其中distance均为欧式距离。高斯核可以极大程度的避免出现相同密度的实例的情况，且能保证随着单个实例范围的其他实例数量增加时，也会相应的增大。

5.3.计算实例与其master的距离

$\delta_i= \begin{cases} max(distance(x_i,x_j)),& \text{$\rho_i={\max_{j\in[l...N]}}(\rho_j)$ > 0}\\ \text{$\min_{j\in[l..N]|\rho_j > \rho_i}$},& \text{otherwise} \end{cases}\tag{6}$