【论文阅读】2018-2 Multi-instance Learning with Discriminative Bag Mapping

题目

Multi-instance Learning with Discriminative Bag Mapping
具有判别包映射的多示例学习
2018 IEEE Transactions on Knowledge and Data Engineering

摘要

多示例学习 (MIL) 是解决学习中标签模糊问题的有用工具,因为它允许一组实例共享一个标签。包映射通过实例选择将包转换为新空间中的单个实例,最近引起了广泛关注。迄今为止,大多数现有工作都基于原始空间,使用所有实例进行包映射,并且所选实例不直接与 MIL 目标相关联。因此,很难保证所选实例在新包映射空间中的区分能力。
在本文中,我们提出了一种用于多示例学习(MILDM)的判别映射方法,旨在识别最佳实例以直接区分新映射空间中的包。因此,可以使用所选实例将每个实例包映射到新的特征空间,使用任何通用学习算法(例如基于实例的学习算法)来导出用于多示例分类的学习模型。
对八种不同类型的现实世界学习任务(包括 14 个数据集)的实验和比较表明,MILDM 优于最先进的包映射多示例学习方法。结果还证实 MILDM 在运行时效率和分类有效性之间取得了平衡的性能。

引入

现有的多示例学习方法分为两类:
a) 更新通用学习算法以解决标签歧义问题
b) 开发专门用于多示例学习的学习范式
常见的方法是将多示例学习转换为更传统的监督学习形式(单实例学习):将包标签传入给包中实例;使用一个实例基于统计属性表示每个包(算数平均、几何平均、极大极小值);带有实例选择的包映射(中间实例池IIP)

相关工作

a) 更新的单实例学习器:对现有单实例学习算法的改编,以支持多示例学习
b) 专门设计的 MIL 算法:专门设计的MIL算法使用包约束将每个包内的实例重组为用于学习的特定格式。Axis parallel hyper-rectangles、Diverse density

基于词汇的方法(vocabulary-based):
1)histogram-based:基于直方图的方法使用一个函数将每个包映射到一个直方图中,其中每个 bin 计算有多少实例落入词汇的特定类别
2) distance-based methods基于距离的方法通过提供从特殊类到包中任何实例的最小距离,将每个包映射到向量空间
3) attribute-based methods基于属性的方法包括一个映射函数,该映射函数返回一个向量,该向量是汇总与特定类匹配的实例属性的子向量的连接
4) vocabularies of bags-based methods 基于包的方法的词汇表从包的类别而不是实例中形成词汇表

基于实例选择的MIL:
1)非包映射方法:基本思想是从每个包中选择一个或多个实例来表示整个包。传播包标签、统计表示等
2)包映射方法:基本思想是选择一组实例原型,即 IIP,将每个包映射到一个新的特征空间

算法

符号系统
NonationMean
B \mathcal{B} B数据集
B i B_i Bi i i i个包
y i y_i yi包标签
x i , j x_{i,j} xi,j j j j个实例
B i ϕ = [ s ( B i , x 1 ϕ ) , … , s ( B i , x m ϕ ) ] B_i^{\phi}=[s(B_i,x_1^{\phi}),\dots,s(B_i,x_m^{\phi})] Biϕ=[s(Bi,x1ϕ),,s(Bi,xmϕ)]转换后的包表示
P \mathcal{P} P判别实例池
x k ϕ ∈ P x_k^{\phi} \in \mathcal{P} xkϕP候选实例
X \mathcal{X} X实例空间
DIP实例池选择

实例选择矩阵 I P \mathcal{I_P} IP,是一个对角矩阵;其中 d i a g ( I P ) = d ( P ) diag(\mathcal{I_P})=d({\mathcal{P})} diag(IP)=d(P),即主对角线是一个指示向量; x i ∈ P , d ( P ) i = 1 x_i \in \mathcal{P},d(\mathcal{P})_i=1 xiP,d(P)i=1
对角矩阵主对角线之外的元素皆为0的矩阵
实例评估函数:(具有相同标签的包在映射空间中彼此相似,不同包标签具有差异)
J ( P ) = 1 2 ∑ i , j K P ( B i , B j ) Q i , j \mathcal{J(P)}=\frac{1}{2}\sum_{i,j}K_{\mathcal{P}}(B_i,B_j)Q_{i,j} J(P)=21i,jKP(Bi,Bj)Qi,j
其中, K P ( B i , B j ) = ∥ I ( P ) B i ϕ x − I ( P ) B j ϕ x ∥ 2 K_{\mathcal{P}}(B_i,B_j)=\| \mathcal{I(P)}B_i^{\phi_x} -\mathcal{I(P)}B_j^{\phi_x} \|^2 KP(Bi,Bj)=I(P)BiϕxI(P)Bjϕx2
Q i , j = { − 1 / ∣ A ∣ 标签相同 1 / ∣ B ∣ 标签不同 Q_{i,j}= \begin{cases} -1/|A|& \text{标签相同}\\ 1/|B|& \text{标签不同} \end{cases} Qi,j={1/A1/B标签相同标签不同
推导过程:
在这里插入图片描述
f ( x k ϕ , L ) = ϕ k T L ϕ k f(x_k^\phi,L)=\phi_k^TL\phi_k f(xkϕ,L)=ϕkTLϕk
ϕ k ∈ R n × 1 \phi_k \in \mathbb{R}^{n \times1} ϕkRn×1,即该实例对每个包的映射值组成的列向量
DIP优化目标
P ∗ = argmax P ⊆ X J ( P ) \mathcal{P_*=\mathop{\text{argmax}}\limits_{\mathcal{P}\subseteq \mathcal{X}}} \mathcal{J(P)} P=PXargmaxJ(P) s.t. ∣ P ∣ = m |\mathcal{P}|=m P=m
max P ⊆ X ∑ x k ϕ ∈ P f ( x k ϕ , L ) \mathop{\text{max}}\limits_{\mathcal{P}\subseteq \mathcal{X}}\sum_{x_k^\phi \in \mathcal{P}}f(x_k^\phi,L) PXmaxxkϕPf(xkϕ,L) s.t. ∣ P ∣ = m |\mathcal{P}|=m P=m

通过判别实例池进行包映射

B i ϕ = [ s ( B i , x 1 ϕ ) , … , s ( B i , x m ϕ ) ] B_i^{\phi}=[s(B_i,x_1^{\phi}),\dots,s(B_i,x_m^{\phi})] Biϕ=[s(Bi,x1ϕ),,s(Bi,xmϕ)]
s ( B i , x k ϕ ) = max x i , j ∈ B i e x p ( ∥ x i , j − x k ϕ ∥ 2 / σ 2 ) s(B_i,x_k^{\phi})=\mathop{\text{max}}\limits_{x_{i,j}\in B_i}exp(\|x_{i,j}-x_k^\phi\|^2/\sigma^2) s(Bi,xkϕ)=xi,jBimaxexp(xi,jxkϕ2/σ2)
$\sigma $是预定义的比例因子

两种判别包映射方法:
1)全局判别包映射:计算所有包中每个实例的得分,并选择前m个实例

  • aMILGDM使用所有训练包
  • pMILGDM只使用正包

DIP可能来自同一个包,因此只有少数包可能有助于学习过程

2)局部判别包映射:计算包中的每个实例,并选择一个判别分数最高的实例

  • aMILLDM从每个包中选择一个
  • pMILLDM从每个正包中选择一个

DIP 中的实例来自不同的包

实验

实验设置
评估指标:F-measure、AUC(ROC 曲线下面积)
10次10倍交叉验证
σ 2 = 8 ∗ 1 0 5 \sigma^2=8*10^5 σ2=8105
pMILGDM, pMILLDM: m m m设置为正包数
aMILGDM, aMILLDM: m m m设置为所有包数

基准方法
非包映射方法:
MILMR使用每个包内所有实例的平均值作为包表示
MILWA将包标签传播到包内的所有实例作为包表示
MILIR使用负袋的分布来选择一个实例来表示袋
包映射方法:
MILES、MILIS、MILFM

数据集
药物活性预测:Musk1、 Musk2
基于内容的图像分类数据:Elephant 或 Tiger
火车约束挑战(预测火车是东行还是西行,一列火车(包),车厢(实例)):EastWest、WestEast
致突变性预测:Atom、Bond
科学出版物检索(预测论文属于 AI 领域还是 CV 领域,论文(包),摘要、参考文献摘要(实例)):AICV
在线产品评估(食品(包),评论(实例)):Food
Newsgroup 分类:rec.motorcycles and talk.politics.mideast
网页索引推荐:web7、web8

实验结果
与非包映射比较:比较三种非包映射算法的性能
基于实例选择的包映射:MILES、MILFM、MILIS之间的比较
判别包映射方法:总之,使用所有包构造 DIP 的 aMILDM优于仅使用正袋子的 pMILDM,因为更多信息用于构造 DIP。

不同大小的IIP或DIP:随着实例数量的增加,分类性能提高。这是因为新实例提供了对包映射有用的更多信息;当 IIP 或 DIP 中的实例不足时,性能的上升趋势是微不足道的

一系列 IIP/DIP 大小的最大和平均 F 值:MILDM 在 F 测量、AUC方面的分类性能比传统的 IIP 包映射方法高 5% 到 25%

统计显著性检验:
双尾t检验、95%置信水平
如果 p < 0.05,则与其他方法相比,所提出的 MILDM 取得了统计学上的显着改进

时间复杂度:
各算法时间复杂度总结表

效率比较:

  • 各算法训练阶段平均 CPU 运行时间表
    pMILDM 实现了比 aMILDM 更好的运行时性能,因为 pMILDM 使用更少的包来构建 DIP
    非包映射方法的运行时性能略优于包映射方法
    MILDM 比具有大量数据的非包映射需要更少的运行时间
  • 各算法测试阶段平均 CPU 运行时间表
    在基于包映射实例选择的算法中,对应的测试时间取决于m

DISCUSSION

不同基分类器的 MILDM

k-nearest neighbors (IB1), naive Bayes (NB), decision trees (J48), support vector machines (SMO)

与没有实例选择的 MIL 的比较

MILDM 与四种 MIL 算法相比的性能MISVM 、MILR 、MIEMDD 和 MIBoost

MILDM 的可扩展性

large-scale Speaker data

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值