[论文阅读] Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning

还在写BUG呢

已于 2022-07-01 19:21:02 修改

阅读量365

点赞数

分类专栏：多示例学习文章标签：机器学习算法

于 2022-07-01 19:06:10 首次发布

本文链接：https://blog.csdn.net/Knight_ZJY/article/details/125564399

版权

多示例学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

[论文阅读] Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning

时间：2022/7/1

文章目录

[论文阅读] Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning

1.题目信息

多示例学习习的两阶段实例选择和自适应包映射算法（the two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning, TAMI）

2.问题描述

多示例学习（MIL）研究对象的内部结构比单示例学习更加复杂。已有的 MIL 方法大都基于原始空间中的实例进行包映射。这些方法通常忽略了包的内部结构信息，难以保证所选实例与包在新特征空间中的关联性。

3.主要贡献

提出一种多示例学习的两阶段实例选择和自适应包映射（TAMI）算法。结果表明，TAMI 在图像检索和医学图像数据集上取得了比其它 MIL 算法更好的效果，并在文本分类数据集上的表现良好。

4.符号系统

符号	含义
$X_i$	第i个包
$X_{ij}$	第i个包的第j个实例
$n$	数据集包个数
$n_i$	第i个包中实例数量
$y_i\in{{-1,+1 }} $	第i个包标签
$\tau$	给定数据集
$T$	实例原型池
$R$	代表对象

5.算法思想

实例选择技术分为两个阶段选择数据空间的代表实例。第一阶段利用包中实例的密度值和关联性，分析包内结构特征，选取实例原型；第二阶段根据实例原型分布的紧密程度，从中选出具有峰值密度[14]的实例作为代表实例。自适应包映射技术基于包与代表实例的自适应距离关系，通过差值处理，将其转化为单向量。

在这里插入图片描述

5.1.实例原型选择

这部分算法基于密度峰值聚类算法(DPC)改进的，计算实例原型优先级，选取优先级最高的前n个组成实例原型池。优先级的计算如下：
$p_i=\rho_i*s_i\tag{1}$
和DP算法不同的地方便是距离度量变成实例关联性度量 $s_i$ ，而密度的计算和DP算法一致
$\rho_i=\sum_{k\ne j}^{n_i}e^{({d_{jk}\over d_c})^2}\tag{2}$
密度的计算采用的是高斯核，半径 $d_c$ 采用是max Hausdorff距离。

实例之间关联性度量的计算如下：
$s_{ijk}= \begin{cases} 1,& \text{$d_{jk}\le d^{ave}$}\\ 0，& else \end{cases}\tag{3}$
采用包内实例的平均距离 $d^{ave}$ 作为判别标准，对每个实例统计周围距离小于 $d^{ave}$ 的实例数量，有些类似于截断核。故 $实例X_{ij}的总关联性度量$ 为：
$s_{ij}=\sum_{k=1}^{n_j}s_{ijk}\tag{4}$
利用公式（1）可计算 $X_i$ 所有实例的优先级，选取优先级最高的实例作为实例原型 $t_i$ ，则 $T={t_1,...,t_j,...,t_n}代表$ 实例原型池。

感觉第一阶段是将高斯核与截断核结合起来使用的。

5.2.代表对象选择

这部分主要是将实例原型池按照DP算法进行优先级计算
$p_i=\rho_i*d_i\tag{5}$
按照DP算法， $d_i$ 是实例原型i距离其master的距离，其密度同样采用高斯核计算，即公式（2）。从 $T$ 选取优先级最大的前 $n_r$ 个优先级最大的实例原型构成代表实例池 $R=\{{r_1,...,r_j,...,r_{n_r}}\}$

5.3.自适应包映射技术

自适应包映射技术根据包中实例与代表实例间的最佳相似度进行映射，既突出了包的内部结构特征，也保证了包在新特征空间中的可区分性。

在这里插入图片描述

对于给定的包 $Font metrics not found for font: .$ ，其映射过程如上图所示：1） $计算包中实例𝒙_{ij}与代表实例池𝑹的距离向量𝒅_j = \{𝑑_{j1}, ⋯ , 𝑑_{jm}, ⋯ , 𝑑_{jn_r} \}$ ， $其中𝑑_{jm} ∈ 𝒅_j表示𝒙_{ij}与𝒓_m \in 𝑹的欧式距离$ ；
2） $计算𝒙_{ij}$ 的自适应目标索引 $\tau_i=arg \min _{1<m<n_r \{{d_{jm}}\}}$ ；

3） $计算𝒙_{ij}的自适应映射向量𝒗_{ij}：$
$v_{ij}=x_{ij}-r_{\tau_j}\tag{6}$
4)将所有 $v_{ij}进行叠加得到X_{i}的映射向量V_i$ :
$V_i=\sum_{j=1}^{n_i}V_{ij}\tag{7}$
进一步，对于 $𝑽_i$ 的每一个元素 $𝑉_{il}通过𝑉_{il}←sign(𝑉_{il})\sqrt{|𝑉_{il}|}进行处理$ ，再由 $𝑽_i←𝑽_i/‖𝑽_i‖_2对映射向量进行二范归一化$ 。最后利用 $𝑽_i, 𝑦_i)$ 训练单实例分类器ℱ(⋅)。