【论文阅读】Multi-instance clustering with applications to multi-instance prediction

【论文阅读】Multi-instance clustering with applications to multi-instance prediction

多实例聚类在多实例预测中的应用

时间:2022/9/26

1.基本信息

@article{MinLingZhang2009MultiinstanceCW,
  title={Multi-instance clustering with applications to multi-instance prediction},
  author={Min-Ling Zhang and Zhi-Hua Zhou},
  journal={Applied Intelligence},
  year={2009}
}

2.主要贡献

  1. 本文针对于没有标签的包的无监督多示例学习问题,提出了一种多示例聚类算法——BAMIC。
  2. 基于BAMIC的聚类结果,提出了一种多示例预测算法BARMIP,这是一个基于嵌入的多示例分类方法
  3. 提出一种新的距离度量——平均Hausdorff距离,用于衡量多示例包之间的距离。用于计算机

3.主要内容

3.1.标准多示例预测算法分支及应用

在这里插入图片描述

3.2. 平均Hausdorff距离

对于如何衡量包与包之间的距离,常见的方法是使用两种距离函数,一是最大Hausdorff距离,二是最小Hausdorff距离。对于给定的包A、B,其距离定义如下:
m a x H ( A , B ) = max ⁡ { max ⁡ a ∈ A min ⁡ b ∈ B ∣ ∣ a − b ∣ ∣ } maxH(A,B)=\max\{ \max_{a\in A} \min_{b\in B}||a-b||\} maxH(A,B)=max{aAmaxbBmin∣∣ab∣∣}
m i n H ( A , B ) = min ⁡ a ∈ A , b ∈ B ∣ ∣ a − b ∣ ∣ minH(A,B)=\min_{a\in A,b\in B}||a-b|| minH(A,B)=aA,bBmin∣∣ab∣∣
其中两个实例之间采用欧式距离。但是在作者的初步实验中发现,二者在GENMIP问题上均存在问题。作者猜测max距离效果不佳的原因是易受离群点的影响,而min的问题在于只考虑了A与B中最接近的一对实例之间的距离。因此,作者提出了新的一种距离——平均Hausdorff距离。其定义如下:
a v e H ( A , B ) = ∑ a ∈ A min ⁡ b ∈ B ∣ ∣ a − b ∣ ∣ + ∑ b ∈ B min ⁡ a ∈ A ∣ ∣ b − a ∣ ∣ ∣ A ∣ + ∣ B ∣ aveH(A,B)={\sum_{a\in A}\min_{b\in B}||a-b||+\sum_{b\in B}\min_{a\in A}||b-a|| \over |A|+|B|} aveH(A,B)=A+BaAminbB∣∣ab∣∣+bBminaA∣∣ba∣∣
从概念上讲,平均Hausdorff距离比最大和最小Hausdorff距离更多地考虑了两个包实例之间的几何关系。

3.3.BAMIC

对于多示例聚类算法的地位,作者认为虽然其没有多示例预测算法(即有监督的多示例学习的重要性高,但其同样拥有其必要性。首先在有些情况下多示例学习中包的标签并不能轻易获得,有些时候可能需要付出非常昂贵的代价。比如对于分子的药物特性,如果对每个分子进行生化实验以获得其药物特性,这样的代价是相当昂贵的。因此,无监督学习的特点之一——不需要标签。是非常适用于这种情况的。通过聚类使得具有相似性质的分子聚集,可以促进药物的设计过程。其次,无监督学习可以帮助找到数据集的内部特征。无监督学习的结果可作为进一步分析的信息。对于多示例聚类,作者认为聚类多示例包的任务有其自身的特点,虽然在多实例聚类中缺少了包的标签,但不应将包视为独立实例的简单集合,而应仔细研究包中实例的特性和关系。

本文提出了一种多示例聚类算法BAMIC(BAg-level Multi-iIstance Clustering),BAMIC尝试将未标记的训练包划分为k组不相交的包,其中利用几种形式的Hausdorff度量来测量包之间的距离,并采用流行的k- medoids算法来完成聚类任务。 k-medoids算法是k-means算法的变体,聚类中心不是k-means算法中的均值,而是选取与其相近的真实实例。将包视作一个原子对象。通过k中心点算法聚类成k个簇,每组的中位数是与同一组中其他包的平均距离最小的包。其算法伪代码如下:
在这里插入图片描述
对于聚类的性能度量,作者选取了pipurity(纯度)和entropy(熵)来度量。其定义如下:
a v g p u r i t y ( { G 1 , . . . , G K } ) = ∑ j = 1 k W j N ∗ max ⁡ { W j 0 , W j 1 } W j a v g e n t r o p y ( { G 1 , . . . , G K } ) = ∑ j = 1 k W j N ∗ ( ∑ l ∈ { 0 , 1 } − W j l W j l o g 2 W j l W j ) avgpurity(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*{\max\{ W_j^0,W_j^1\}\over W_j} \\ avgentropy(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*(\sum_{l\in \{0,1\}}-{W_j^l\over W_j}log_2{W_j^l\over W_j}) avgpurity({G1,...,GK})=j=1kNWjWjmax{Wj0,Wj1}avgentropy({G1,...,GK})=j=1kNWj(l{0,1}WjWjllog2WjWjl)

3.4.BARTMIP

对于多示例预测问题,由于多示例本身的特点,即数据由一组特征向量而非一个特征向量表述。传统的监督学习算法并不能在其之上获得很好的适配性。对此,目前有两种主要的思路来解决这个问题,一个是修改学习器,使其适应多示例数据包。使其关注的重点从实例的区分转向包的区分。另一种则反过来,修改多示例数据包使其适应传统的监督学习算法。

本文在BAMIC的帮助下,根据第二种策略,提出了一种新的多实例预测解决方案——BARTMIP。具体来说,首先使用之前介绍的BAMIC将训练袋聚成k组不相交的包。直观地说,由于聚类可以帮助找到数据集的内在结构,聚类的k组可能隐含地编码了一些关于不同包的空间分布的信息。因此,bartip会尝试基于聚类结果重新表示包。具体来说,每个袋子都由一个k维特征向量重新表示,其第i个特征对应于包与第i组中位数之间的距离。当所有的包转化为k维特征向量时,可以使用传统监督学习器对生成的特征向量进行训练,以区分包。其伪代码如下:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值