题目
An Iterative Instance Selection Based Framework for Multiple-Instance Learning
一种基于迭代实例选择的多示例学习框架
2018 IEEE 30th International Conference on Tools with Artificial Intelligence -C
摘要
基于实例选择的模型是一种有效的多示例学习(MIL)框架,它通过将示例(实例包)嵌入到由一些概念(由一些选定实例表示)形成的新特征空间中来解决 MIL 问题。
大多数先前的研究使用单点概念进行实例选择,其中每个可能的概念仅由单个实例表示。在本文中,我们应用多点概念来选择实例,其中每个可能的概念由一组相似的实例联合表示。此外,我们基于多点概念建立了一个基于迭代实例选择的 MIL 框架,保证自动收敛到给定问题所需的概念数量。
实验结果表明,与最先进的 MIL 算法相比,所提出的框架不仅可以更好地处理常见的 MIL 问题,还可以更好地处理混合问题。
相关概念
标准MIL假设
广义MIL假设:正包由与正类相关的几种不同类型的实例,还有其他不相关的实例组成。负包可能包含与正类相关的实例
混合MIL假设:一些正包包含正实例,另一些正包不包含这样的正实例但包含与正类相关的几个正实例
实例原型——表示可能概念(possible concepts)
当前研究通常使用单点概念(single-point concepts),每个概念由单个实例表示。
由单个实例表示的概念的代表能力比一组与该概念相关的相似实例 更弱
本文提出了一个新的基于实例选择的MIL框架,称为MILMPC,它应用多点概念(Multiple-Point)来建立MIL的迭代实例选择模型
多点概念:假设每个可能的概念都与一组相似的实例相关联,而不是与单个实例相关联
如果来自正包的单个实例与目标概念(即正类)相关,则每个正包中的任何最近邻居都应该是相关的。根据标准或广义MIL假设,每个正包都包含与目标概念相同类型的相关实例
算法
符号系统
符号 | 表示 |
---|---|
D D D | 训练集 |
B i + = { x i j + ∣ j = 1 , … , n i + } B_i^+=\{\boldsymbol{x}_{ij}^+ | j=1,\dots,n_i^+\} Bi+={xij+∣j=1,…,ni+} | 正包 |
x i j + \boldsymbol{x}_{ij}^+ xij+ | 实例 |
B i − , x i j − , n i − B_i^-,\boldsymbol{x}_{ij}^-,n_i^- Bi−,xij−,ni− | 同上 |
B i B_i Bi | 包 |
x \boldsymbol{x} x | 实例 |
m + m^+ m+ | 正包个数 |
m − m^- m− | 负包个数 |
n c nc nc | 预定义的最大概念数(非常大) |
n a c nac nac | 实际学习的正概念数量 |
MIL假设的进一步分析
对于标准MIL假设,所有正包都包含同一类实例(正实例),正实例与目标概念(正类)相关
对于广义MIL假设,每个正包包含几种不同类型的实例,这些实例与正类相关。比如海滩图像中包含沙滩和海洋
与目标概念相关的相同类型的实例出现在所有正包中
动机:从一个正包中的一个相关实例 x 开始在每个正包中搜索它的最近邻居,我们将得到一组相似的实例。显然,这些相似的实例很可能也属于同一类。因此,它们可以表示一个概念
MILMPC方法概述
step1:概念提取:从所有正包中收集实例,并在每个实例中从每个正袋中搜索其最近邻居,每一组邻居都被视为一个候选的多点概念(candidate multiple-point concepts)
step2:相关性(relevance)计算:根据相关性评估标准,计算每个候选概念与正类的相关性
step3:初始概念选择:从候选概念中选择相关性最高的概念,并加入空的多点概念集(multiple-point-concept set)
step4:冗余度(redundancy)计算:计算每个候选概念到概念集的冗余
step5:概念选择:如果存在最非冗余且相关的候选概念,将其添加到概念集,并返回步骤4;否则终止迭代
迭代实例选择方法的组成部分
candidate multiple-point concepts
C
x
C_{\boldsymbol{x}}
Cx,包括
x
\boldsymbol{x}
x在每个正包中的最近邻
C
x
=
{
n
x
(
B
i
+
)
∣
B
i
+
∈
D
}
C_{\boldsymbol{x}}=\{n_{\boldsymbol{x}}(B_i^+)|B_i^+\in D\}
Cx={nx(Bi+)∣Bi+∈D}
B
i
+
B_i^+
Bi+中,
x
{\boldsymbol{x}}
x的最近邻居
n
x
(
B
i
+
)
=
argmin
x
i
j
+
∈
B
i
+
∥
x
i
j
+
−
x
∥
2
2
n_{\boldsymbol{x}}(B_i^+)=\mathop{\text{argmin}}\limits_{{\boldsymbol{x}}_{ij}^+\in B_i^+}\| \boldsymbol{x}_{ij}^+ -\boldsymbol{x}\|_2^2
nx(Bi+)=xij+∈Bi+argmin∥xij+−x∥22
对所有正包中的实例提取一组候选概念
相关性定义:
在所有正包中共存的近邻实例的数量反应了
C
x
C_{\boldsymbol{x}}
Cx与目标概念(正类)的相关程度。使用
C
x
C_{\boldsymbol{x}}
Cx中所有实例的平均数来评估相关性:
基于majority voting的相关性:
r
v
(
C
x
)
r_v(C_{\boldsymbol{x}})
rv(Cx),
C
x
=
{
x
k
∣
k
=
1
,
…
,
m
+
}
C_{\boldsymbol{x}}=\{\boldsymbol{x}_k|k=1,\dots,m^+\}
Cx={xk∣k=1,…,m+}
r
v
(
C
x
)
=
1
m
+
∑
k
=
1
m
+
∣
N
x
k
∩
N
C
x
∣
,
r_v(C_{\boldsymbol{x}})=\frac{1}{m^+}\mathop{\sum}\limits_{k=1}^{m^+}|N_{\boldsymbol{x}_k} \cap N_{C_{\boldsymbol{x}}}|,
rv(Cx)=m+1k=1∑m+∣Nxk∩NCx∣,
N
x
k
=
C
x
k
N_{\boldsymbol{x}_k}=C_{{\boldsymbol{x}_k}}
Nxk=Cxk,由
x
k
{\boldsymbol{x}_k}
xk从所有正包中确定的近邻
N
C
x
=
{
n
C
x
(
B
i
+
)
∣
B
i
+
∈
D
}
N_{C_{\boldsymbol{x}}}=\{n_{C_{\boldsymbol{x}}}(B_i^+)|B_i^+\in D\}
NCx={nCx(Bi+)∣Bi+∈D},
n
C
x
(
B
i
+
)
=
v
(
{
n
x
k
(
B
i
+
)
∣
x
k
∈
C
x
}
)
n_{C_{\boldsymbol{x}}}(B_i^+)=v(\{n_{\boldsymbol{x}_k}(B_i^+)|{\boldsymbol{x}_k} \in C_{\boldsymbol{x}}\})
nCx(Bi+)=v({nxk(Bi+)∣xk∈Cx}),
v
(
⋅
)
v(\cdot)
v(⋅)是一个投票函数
(对
C
x
C_{\boldsymbol{x}}
Cx中的每一个实例
x
k
\boldsymbol{x}_k
xk找其在
B
i
+
B_i^+
Bi+中得到近邻,则
B
i
+
B_i^+
Bi+中为近邻次数最多的实例作为
C
x
C_{\boldsymbol{x}}
Cx在
B
i
+
B_i^+
Bi+中的近邻;如此C_{\boldsymbol{x}}对每一个正包都有一个近邻,得到
N
C
x
N_{C_{\boldsymbol{x}}}
NCx)
(如果交集为空呢?)
冗余度
冗余是指一个候选概念
C
x
C_{\boldsymbol{x}}
Cx在多大程度上对当前概念集(multiple-point concept set)是冗余的
这表明
C
x
C_{\boldsymbol{x}}
Cx到
C
C
C的冗余与
C
x
C_{\boldsymbol{x}}
Cx中
C
C
C的相对补码的大小有关(the size of the relative complement )
d
(
C
x
)
=
∣
C
x
/
C
∣
d(C_{\boldsymbol{x}})=|{C_{\boldsymbol{x}}}/C{}|
d(Cx)=∣Cx/C∣
伪代码
C
=
{
x
k
∣
k
=
1
,
…
,
n
}
C=\{{\boldsymbol{x}_k|k=1,\dots,n}\}
C={xk∣k=1,…,n}
特征向量
ξ
(
B
i
)
=
[
h
(
B
i
,
x
1
)
,
…
,
h
(
B
i
,
x
n
)
]
T
\xi(B_i)=[h(B_i,\boldsymbol{x}_1),\dots,h(B_i,\boldsymbol{x}_n)]^T
ξ(Bi)=[h(Bi,x1),…,h(Bi,xn)]T
分类器:具有高斯核的标准 SVM,LIBSVM 用于训练所有 SVM
实验
数据集
遵循标准MIL假设:MUSK1 、MUSK2
遵循广义假设:COREL
例如,一张海滩图像不包含任何真正的海滩区域,而是包含沙子和水区域,而这些块共同决定了该图像的类别。
遵循混合假设:Elephant, Fox, and Tiger
一些正包可能包含目标动物,而其他正包可能只包含目标动物的部分而不包含目标动物
对比算法
传统的 MIL 算法或大多数现有的基于实例选择的算法都以特定假设开始,但试图解决不同类型的 MIL 问题。然而,依赖于一个假设很可能会失去解决另一个假设所支持的问题的能力
收敛性
概念集的大小在多次迭代或多次迭代后增加到最大值,但小于所有正包的实例数