【论文阅读】Multi-instance clustering with applications to multi-instance prediction
多实例聚类在多实例预测中的应用
时间:2022/9/26
文章目录
1.基本信息
@article{MinLingZhang2009MultiinstanceCW,
title={Multi-instance clustering with applications to multi-instance prediction},
author={Min-Ling Zhang and Zhi-Hua Zhou},
journal={Applied Intelligence},
year={2009}
}
2.主要贡献
- 本文针对于没有标签的包的无监督多示例学习问题,提出了一种多示例聚类算法——BAMIC。
- 基于BAMIC的聚类结果,提出了一种多示例预测算法BARMIP,这是一个基于嵌入的多示例分类方法
- 提出一种新的距离度量——平均Hausdorff距离,用于衡量多示例包之间的距离。用于计算机
3.主要内容
3.1.标准多示例预测算法分支及应用
3.2. 平均Hausdorff距离
对于如何衡量包与包之间的距离,常见的方法是使用两种距离函数,一是最大Hausdorff距离,二是最小Hausdorff距离。对于给定的包A、B,其距离定义如下:
m
a
x
H
(
A
,
B
)
=
max
{
max
a
∈
A
min
b
∈
B
∣
∣
a
−
b
∣
∣
}
maxH(A,B)=\max\{ \max_{a\in A} \min_{b\in B}||a-b||\}
maxH(A,B)=max{a∈Amaxb∈Bmin∣∣a−b∣∣}
m
i
n
H
(
A
,
B
)
=
min
a
∈
A
,
b
∈
B
∣
∣
a
−
b
∣
∣
minH(A,B)=\min_{a\in A,b\in B}||a-b||
minH(A,B)=a∈A,b∈Bmin∣∣a−b∣∣
其中两个实例之间采用欧式距离。但是在作者的初步实验中发现,二者在GENMIP问题上均存在问题。作者猜测max距离效果不佳的原因是易受离群点的影响,而min的问题在于只考虑了A与B中最接近的一对实例之间的距离。因此,作者提出了新的一种距离——平均Hausdorff距离。其定义如下:
a
v
e
H
(
A
,
B
)
=
∑
a
∈
A
min
b
∈
B
∣
∣
a
−
b
∣
∣
+
∑
b
∈
B
min
a
∈
A
∣
∣
b
−
a
∣
∣
∣
A
∣
+
∣
B
∣
aveH(A,B)={\sum_{a\in A}\min_{b\in B}||a-b||+\sum_{b\in B}\min_{a\in A}||b-a|| \over |A|+|B|}
aveH(A,B)=∣A∣+∣B∣∑a∈Aminb∈B∣∣a−b∣∣+∑b∈Bmina∈A∣∣b−a∣∣
从概念上讲,平均Hausdorff距离比最大和最小Hausdorff距离更多地考虑了两个包实例之间的几何关系。
3.3.BAMIC
对于多示例聚类算法的地位,作者认为虽然其没有多示例预测算法(即有监督的多示例学习的重要性高,但其同样拥有其必要性。首先在有些情况下多示例学习中包的标签并不能轻易获得,有些时候可能需要付出非常昂贵的代价。比如对于分子的药物特性,如果对每个分子进行生化实验以获得其药物特性,这样的代价是相当昂贵的。因此,无监督学习的特点之一——不需要标签。是非常适用于这种情况的。通过聚类使得具有相似性质的分子聚集,可以促进药物的设计过程。其次,无监督学习可以帮助找到数据集的内部特征。无监督学习的结果可作为进一步分析的信息。对于多示例聚类,作者认为聚类多示例包的任务有其自身的特点,虽然在多实例聚类中缺少了包的标签,但不应将包视为独立实例的简单集合,而应仔细研究包中实例的特性和关系。
本文提出了一种多示例聚类算法BAMIC(BAg-level Multi-iIstance Clustering),BAMIC尝试将未标记的训练包划分为k组不相交的包,其中利用几种形式的Hausdorff度量来测量包之间的距离,并采用流行的k- medoids算法来完成聚类任务。 k-medoids算法是k-means算法的变体,聚类中心不是k-means算法中的均值,而是选取与其相近的真实实例。将包视作一个原子对象。通过k中心点算法聚类成k个簇,每组的中位数是与同一组中其他包的平均距离最小的包。其算法伪代码如下:
对于聚类的性能度量,作者选取了pipurity(纯度)和entropy(熵)来度量。其定义如下:
a
v
g
p
u
r
i
t
y
(
{
G
1
,
.
.
.
,
G
K
}
)
=
∑
j
=
1
k
W
j
N
∗
max
{
W
j
0
,
W
j
1
}
W
j
a
v
g
e
n
t
r
o
p
y
(
{
G
1
,
.
.
.
,
G
K
}
)
=
∑
j
=
1
k
W
j
N
∗
(
∑
l
∈
{
0
,
1
}
−
W
j
l
W
j
l
o
g
2
W
j
l
W
j
)
avgpurity(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*{\max\{ W_j^0,W_j^1\}\over W_j} \\ avgentropy(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*(\sum_{l\in \{0,1\}}-{W_j^l\over W_j}log_2{W_j^l\over W_j})
avgpurity({G1,...,GK})=j=1∑kNWj∗Wjmax{Wj0,Wj1}avgentropy({G1,...,GK})=j=1∑kNWj∗(l∈{0,1}∑−WjWjllog2WjWjl)
3.4.BARTMIP
对于多示例预测问题,由于多示例本身的特点,即数据由一组特征向量而非一个特征向量表述。传统的监督学习算法并不能在其之上获得很好的适配性。对此,目前有两种主要的思路来解决这个问题,一个是修改学习器,使其适应多示例数据包。使其关注的重点从实例的区分转向包的区分。另一种则反过来,修改多示例数据包使其适应传统的监督学习算法。
本文在BAMIC的帮助下,根据第二种策略,提出了一种新的多实例预测解决方案——BARTMIP。具体来说,首先使用之前介绍的BAMIC将训练袋聚成k组不相交的包。直观地说,由于聚类可以帮助找到数据集的内在结构,聚类的k组可能隐含地编码了一些关于不同包的空间分布的信息。因此,bartip会尝试基于聚类结果重新表示包。具体来说,每个袋子都由一个k维特征向量重新表示,其第i个特征对应于包与第i组中位数之间的距离。当所有的包转化为k维特征向量时,可以使用传统监督学习器对生成的特征向量进行训练,以区分包。其伪代码如下: