题目
Multi-instance Learning with Discriminative Bag Mapping
具有判别包映射的多示例学习
2018 IEEE Transactions on Knowledge and Data Engineering
摘要
多示例学习 (MIL) 是解决学习中标签模糊问题的有用工具,因为它允许一组实例共享一个标签。包映射通过实例选择将包转换为新空间中的单个实例,最近引起了广泛关注。迄今为止,大多数现有工作都基于原始空间,使用所有实例进行包映射,并且所选实例不直接与 MIL 目标相关联。因此,很难保证所选实例在新包映射空间中的区分能力。
在本文中,我们提出了一种用于多示例学习(MILDM)的判别映射方法,旨在识别最佳实例以直接区分新映射空间中的包。因此,可以使用所选实例将每个实例包映射到新的特征空间,使用任何通用学习算法(例如基于实例的学习算法)来导出用于多示例分类的学习模型。
对八种不同类型的现实世界学习任务(包括 14 个数据集)的实验和比较表明,MILDM 优于最先进的包映射多示例学习方法。结果还证实 MILDM 在运行时效率和分类有效性之间取得了平衡的性能。
引入
现有的多示例学习方法分为两类:
a) 更新通用学习算法以解决标签歧义问题
b) 开发专门用于多示例学习的学习范式
常见的方法是将多示例学习转换为更传统的监督学习形式(单实例学习):将包标签传入给包中实例;使用一个实例基于统计属性表示每个包(算数平均、几何平均、极大极小值);带有实例选择的包映射(中间实例池IIP)
相关工作
a) 更新的单实例学习器:对现有单实例学习算法的改编,以支持多示例学习
b) 专门设计的 MIL 算法:专门设计的MIL算法使用包约束将每个包内的实例重组为用于学习的特定格式。Axis parallel hyper-rectangles、Diverse density
基于词汇的方法(vocabulary-based):
1)histogram-based:基于直方图的方法使用一个函数将每个包映射到一个直方图中,其中每个 bin 计算有多少实例落入词汇的特定类别
2) distance-based methods基于距离的方法通过提供从特殊类到包中任何实例的最小距离,将每个包映射到向量空间
3) attribute-based methods基于属性的方法包括一个映射函数,该映射函数返回一个向量,该向量是汇总与特定类匹配的实例属性的子向量的连接
4) vocabularies of bags-based methods 基于包的方法的词汇表从包的类别而不是实例中形成词汇表
基于实例选择的MIL:
1)非包映射方法:基本思想是从每个包中选择一个或多个实例来表示整个包。传播包标签、统计表示等
2)包映射方法:基本思想是选择一组实例原型,即 IIP,将每个包映射到一个新的特征空间
算法
符号系统
Nonation | Mean |
---|---|
B \mathcal{B} B | 数据集 |
B i B_i Bi | 第 i i i个包 |
y i y_i yi | 包标签 |
x i , j x_{i,j} xi,j | 第 j j j个实例 |
B i ϕ = [ s ( B i , x 1 ϕ ) , … , s ( B i , x m ϕ ) ] B_i^{\phi}=[s(B_i,x_1^{\phi}),\dots,s(B_i,x_m^{\phi})] Biϕ=[s(Bi,x1ϕ),…,s(Bi,xmϕ)] | 转换后的包表示 |
P \mathcal{P} P | 判别实例池 |
x k ϕ ∈ P x_k^{\phi} \in \mathcal{P} xkϕ∈P | 候选实例 |
X \mathcal{X} X | 实例空间 |
DIP实例池选择
实例选择矩阵:
I
P
\mathcal{I_P}
IP,是一个对角矩阵;其中
d
i
a
g
(
I
P
)
=
d
(
P
)
diag(\mathcal{I_P})=d({\mathcal{P})}
diag(IP)=d(P),即主对角线是一个指示向量;
x
i
∈
P
,
d
(
P
)
i
=
1
x_i \in \mathcal{P},d(\mathcal{P})_i=1
xi∈P,d(P)i=1
对角矩阵主对角线之外的元素皆为0的矩阵
实例评估函数:(具有相同标签的包在映射空间中彼此相似,不同包标签具有差异)
J
(
P
)
=
1
2
∑
i
,
j
K
P
(
B
i
,
B
j
)
Q
i
,
j
\mathcal{J(P)}=\frac{1}{2}\sum_{i,j}K_{\mathcal{P}}(B_i,B_j)Q_{i,j}
J(P)=21∑i,jKP(Bi,Bj)Qi,j
其中,
K
P
(
B
i
,
B
j
)
=
∥
I
(
P
)
B
i
ϕ
x
−
I
(
P
)
B
j
ϕ
x
∥
2
K_{\mathcal{P}}(B_i,B_j)=\| \mathcal{I(P)}B_i^{\phi_x} -\mathcal{I(P)}B_j^{\phi_x} \|^2
KP(Bi,Bj)=∥I(P)Biϕx−I(P)Bjϕx∥2
Q
i
,
j
=
{
−
1
/
∣
A
∣
标签相同
1
/
∣
B
∣
标签不同
Q_{i,j}= \begin{cases} -1/|A|& \text{标签相同}\\ 1/|B|& \text{标签不同} \end{cases}
Qi,j={−1/∣A∣1/∣B∣标签相同标签不同
推导过程:
f
(
x
k
ϕ
,
L
)
=
ϕ
k
T
L
ϕ
k
f(x_k^\phi,L)=\phi_k^TL\phi_k
f(xkϕ,L)=ϕkTLϕk
ϕ
k
∈
R
n
×
1
\phi_k \in \mathbb{R}^{n \times1}
ϕk∈Rn×1,即该实例对每个包的映射值组成的列向量
DIP优化目标:
P
∗
=
argmax
P
⊆
X
J
(
P
)
\mathcal{P_*=\mathop{\text{argmax}}\limits_{\mathcal{P}\subseteq \mathcal{X}}} \mathcal{J(P)}
P∗=P⊆XargmaxJ(P) s.t.
∣
P
∣
=
m
|\mathcal{P}|=m
∣P∣=m
max
P
⊆
X
∑
x
k
ϕ
∈
P
f
(
x
k
ϕ
,
L
)
\mathop{\text{max}}\limits_{\mathcal{P}\subseteq \mathcal{X}}\sum_{x_k^\phi \in \mathcal{P}}f(x_k^\phi,L)
P⊆Xmax∑xkϕ∈Pf(xkϕ,L) s.t.
∣
P
∣
=
m
|\mathcal{P}|=m
∣P∣=m
通过判别实例池进行包映射
B
i
ϕ
=
[
s
(
B
i
,
x
1
ϕ
)
,
…
,
s
(
B
i
,
x
m
ϕ
)
]
B_i^{\phi}=[s(B_i,x_1^{\phi}),\dots,s(B_i,x_m^{\phi})]
Biϕ=[s(Bi,x1ϕ),…,s(Bi,xmϕ)]
s
(
B
i
,
x
k
ϕ
)
=
max
x
i
,
j
∈
B
i
e
x
p
(
∥
x
i
,
j
−
x
k
ϕ
∥
2
/
σ
2
)
s(B_i,x_k^{\phi})=\mathop{\text{max}}\limits_{x_{i,j}\in B_i}exp(\|x_{i,j}-x_k^\phi\|^2/\sigma^2)
s(Bi,xkϕ)=xi,j∈Bimaxexp(∥xi,j−xkϕ∥2/σ2)
$\sigma $是预定义的比例因子
两种判别包映射方法:
1)全局判别包映射:计算所有包中每个实例的得分,并选择前m个实例
- aMILGDM使用所有训练包
- pMILGDM只使用正包
DIP可能来自同一个包,因此只有少数包可能有助于学习过程
2)局部判别包映射:计算包中的每个实例,并选择一个判别分数最高的实例
- aMILLDM从每个包中选择一个
- pMILLDM从每个正包中选择一个
DIP 中的实例来自不同的包
实验
实验设置
评估指标:F-measure、AUC(ROC 曲线下面积)
10次10倍交叉验证
σ
2
=
8
∗
1
0
5
\sigma^2=8*10^5
σ2=8∗105
pMILGDM, pMILLDM:
m
m
m设置为正包数
aMILGDM, aMILLDM:
m
m
m设置为所有包数
基准方法
非包映射方法:
MILMR使用每个包内所有实例的平均值作为包表示
MILWA将包标签传播到包内的所有实例作为包表示
MILIR使用负袋的分布来选择一个实例来表示袋
包映射方法:
MILES、MILIS、MILFM
数据集
药物活性预测:Musk1、 Musk2
基于内容的图像分类数据:Elephant 或 Tiger
火车约束挑战(预测火车是东行还是西行,一列火车(包),车厢(实例)):EastWest、WestEast
致突变性预测:Atom、Bond
科学出版物检索(预测论文属于 AI 领域还是 CV 领域,论文(包),摘要、参考文献摘要(实例)):AICV
在线产品评估(食品(包),评论(实例)):Food
Newsgroup 分类:rec.motorcycles and talk.politics.mideast
网页索引推荐:web7、web8
实验结果
与非包映射比较:比较三种非包映射算法的性能
基于实例选择的包映射:MILES、MILFM、MILIS之间的比较
判别包映射方法:总之,使用所有包构造 DIP 的 aMILDM优于仅使用正袋子的 pMILDM,因为更多信息用于构造 DIP。
不同大小的IIP或DIP:随着实例数量的增加,分类性能提高。这是因为新实例提供了对包映射有用的更多信息;当 IIP 或 DIP 中的实例不足时,性能的上升趋势是微不足道的
一系列 IIP/DIP 大小的最大和平均 F 值:MILDM 在 F 测量、AUC方面的分类性能比传统的 IIP 包映射方法高 5% 到 25%
统计显著性检验:
双尾t检验、95%置信水平
如果 p < 0.05,则与其他方法相比,所提出的 MILDM 取得了统计学上的显着改进
时间复杂度:
各算法时间复杂度总结表
效率比较:
- 各算法训练阶段平均 CPU 运行时间表
pMILDM 实现了比 aMILDM 更好的运行时性能,因为 pMILDM 使用更少的包来构建 DIP
非包映射方法的运行时性能略优于包映射方法
MILDM 比具有大量数据的非包映射需要更少的运行时间 - 各算法测试阶段平均 CPU 运行时间表
在基于包映射实例选择的算法中,对应的测试时间取决于m
DISCUSSION
不同基分类器的 MILDM
k-nearest neighbors (IB1), naive Bayes (NB), decision trees (J48), support vector machines (SMO)
与没有实例选择的 MIL 的比较
MILDM 与四种 MIL 算法相比的性能MISVM 、MILR 、MIEMDD 和 MIBoost
MILDM 的可扩展性
large-scale Speaker data