[论文阅读] Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning

[论文阅读] Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning

时间:2022/7/1

1.题目信息

多示例学习习的两阶段实例选择和自适应包映射算法(the two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning, TAMI)

2.问题描述

多示例学习(MIL)研究对象的内部结构比单示例学习更加复杂。已有的 MIL 方法大都基于原始 空间中的实例进行包映射。这些方法通常忽略了包的内部结构信息,难以保证所选实例与包在新特征空 间中的关联性。

3.主要贡献

提出一种多示例学习的两阶段实例选择和自适应包映射(TAMI)算法。结果表明,TAMI 在图像检索和医学图像数据集上取得了比其它 MIL 算法 更好的效果,并在文本分类数据集上的表现良好。

4.符号系统

符号含义
X i X_i Xi第i个包
X i j X_{ij} Xij第i个包的第j个实例
n n n数据集包个数
n i n_i ni第i个包中实例数量
$y_i\in{{-1,+1 }} $第i个包标签
τ \tau τ给定数据集
T T T实例原型池
R R R代表对象

5.算法思想

实例选择技术分为两个阶段选 择数据空间的代表实例。第一阶段利用包中实例的密度值和关联性,分析包内结构特征,选取实例原型; 第二阶段根据实例原型分布的紧密程度,从中选出具有峰值密度[14]的实例作为代表实例。自适应包映射 技术基于包与代表实例的自适应距离关系,通过差值处理,将其转化为单向量。

在这里插入图片描述

5.1.实例原型选择

这部分算法基于密度峰值聚类算法(DPC)改进的,计算实例原型优先级,选取优先级最高的前n个组成实例原型池。优先级的计算如下:
p i = ρ i ∗ s i (1) p_i=\rho_i*s_i\tag{1} pi=ρisi(1)
和DP算法不同的地方便是距离度量变成实例关联性度量 s i s_i si,而密度的计算和DP算法一致
ρ i = ∑ k ≠ j n i e ( d j k d c ) 2 (2) \rho_i=\sum_{k\ne j}^{n_i}e^{({d_{jk}\over d_c})^2}\tag{2} ρi=k=jnie(dcdjk)2(2)
密度的计算采用的是高斯核,半径 d c d_c dc采用是max Hausdorff距离。

实例之间关联性度量的计算如下:
s i j k = { 1 , d j k ≤ d a v e 0 , e l s e (3) s_{ijk}= \begin{cases} 1,& \text{$d_{jk}\le d^{ave}$}\\ 0,& else \end{cases}\tag{3} sijk={1,0djkdaveelse(3)
采用包内实例的平均距离 d a v e d^{ave} dave作为判别标准,对每个实例统计周围距离小于 d a v e d^{ave} dave的实例数量,有些类似于截断核。故 实 例 X i j 的 总 关 联 性 度 量 实例X_{ij}的总关联性度量 Xij为:
s i j = ∑ k = 1 n j s i j k (4) s_{ij}=\sum_{k=1}^{n_j}s_{ijk}\tag{4} sij=k=1njsijk(4)
利用公式(1)可计算 X i X_i Xi所有实例的优先级,选取 优先级最高的实例作为实例原型 t i t_i ti,则 T = t 1 , . . . , t j , . . . , t n 代 表 T={t_1,...,t_j,...,t_n}代表 T=t1,...,tj,...,tn实例原型池。

感觉第一阶段是将高斯核与截断核结合起来使用的。

5.2.代表对象选择

这部分主要是将实例原型池按照DP算法进行优先级计算
p i = ρ i ∗ d i (5) p_i=\rho_i*d_i\tag{5} pi=ρidi(5)
按照DP算法, d i d_i di是实例原型i距离其master的距离,其密度同样采用高斯核计算,即公式(2)。从 T T T选取优先级最大的前 n r n_r nr个优先级最大的实例原型构成代表实例池 R = { r 1 , . . . , r j , . . . , r n r } R=\{{r_1,...,r_j,...,r_{n_r}}\} R={r1,...,rj,...,rnr}

5.3.自适应包映射技术

自适应包映射技术根据包中实例与代表实例间的最佳相似度进行映射,既突出了包的内部结构特征, 也保证了包在新特征空间中的可区分性。

在这里插入图片描述

对于给定的包Font metrics not found for font: .,其映射过程如上图所示:1) 计 算 包 中 实 例 𝒙 i j 与 代 表 实 例 池 𝑹 的 距 离 向 量 𝒅 j = { 𝑑 j 1 , ⋯ , 𝑑 j m , ⋯ , 𝑑 j n r } 计算包中实例𝒙_{ij}与代表实例池𝑹的距离向量𝒅_j = \{𝑑_{j1}, ⋯ , 𝑑_{jm}, ⋯ , 𝑑_{jn_r} \} xijRdj={dj1,,djm,,djnr} 其 中 𝑑 j m ∈ 𝒅 j 表 示 𝒙 i j 与 𝒓 m ∈ 𝑹 的 欧 式 距 离 其中𝑑_{jm} ∈ 𝒅_j表示𝒙_{ij}与𝒓_m \in 𝑹的欧式距离 djmdjxijrmR
2) 计 算 𝒙 i j 计算𝒙_{ij} xij的自适应目标索引 τ i = a r g min ⁡ 1 < m < n r { d j m } \tau_i=arg \min _{1<m<n_r \{{d_{jm}}\}} τi=argmin1<m<nr{djm}

3) 计 算 𝒙 i j 的 自 适 应 映 射 向 量 𝒗 i j : 计算𝒙_{ij}的自适应映射向量𝒗_{ij}: xijvij
v i j = x i j − r τ j (6) v_{ij}=x_{ij}-r_{\tau_j}\tag{6} vij=xijrτj(6)
4)将所有 v i j 进 行 叠 加 得 到 X i 的 映 射 向 量 V i v_{ij}进行叠加得到X_{i}的映射向量V_i vijXiVi:
V i = ∑ j = 1 n i V i j (7) V_i=\sum_{j=1}^{n_i}V_{ij}\tag{7} Vi=j=1niVij(7)
进一步,对于 𝑽 i 𝑽_i Vi的每一个元素 𝑉 i l 通 过 𝑉 i l ← s i g n ( 𝑉 i l ) ∣ 𝑉 i l ∣ 进 行 处 理 𝑉_{il}通过𝑉_{il}←sign(𝑉_{il})\sqrt{|𝑉_{il}|}进行处理 VilVilsign(Vil)Vil ,再由 𝑽 i ← 𝑽 i / ‖ 𝑽 i ‖ 2 对 映 射 向 量 进 行 二 范 归 一 化 𝑽_i←𝑽_i/‖𝑽_i‖_2对映射向量进行二范 归一化 ViVi/Vi2。最后利用 ( 𝑽 i , 𝑦 i ) (𝑽_i, 𝑦_i) (Vi,yi) 训练单实例分类器ℱ(⋅)。

6.小结

师兄的这篇文章将密度峰值聚类的思想运用的很熟练,多次使用密度计算来确定对象优先级,用以确定代表实例对象的选取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值