【论文阅读】Multi-instance clustering with applications to multi-instance prediction

最新推荐文章于 2023-07-20 12:51:34 发布

还在写BUG呢

最新推荐文章于 2023-07-20 12:51:34 发布

阅读量575

点赞数

分类专栏：多示例学习

本文链接：https://blog.csdn.net/Knight_ZJY/article/details/127075256

版权

多示例学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

【论文阅读】Multi-instance clustering with applications to multi-instance prediction

多实例聚类在多实例预测中的应用

时间：2022/9/26

文章目录

【论文阅读】Multi-instance clustering with applications to multi-instance prediction

1.基本信息

@article{MinLingZhang2009MultiinstanceCW,
  title={Multi-instance clustering with applications to multi-instance prediction},
  author={Min-Ling Zhang and Zhi-Hua Zhou},
  journal={Applied Intelligence},
  year={2009}
}

2.主要贡献

本文针对于没有标签的包的无监督多示例学习问题，提出了一种多示例聚类算法——BAMIC。
基于BAMIC的聚类结果，提出了一种多示例预测算法BARMIP，这是一个基于嵌入的多示例分类方法
提出一种新的距离度量——平均Hausdorff距离，用于衡量多示例包之间的距离。用于计算机

3.主要内容

3.1.标准多示例预测算法分支及应用

在这里插入图片描述

3.2. 平均Hausdorff距离

对于如何衡量包与包之间的距离，常见的方法是使用两种距离函数，一是最大Hausdorff距离，二是最小Hausdorff距离。对于给定的包A、B，其距离定义如下：
$maxH(A,B)=\max\{ \max_{a\in A} \min_{b\in B}||a-b||\}$
$minH(A,B)=\min_{a\in A,b\in B}||a-b||$
其中两个实例之间采用欧式距离。但是在作者的初步实验中发现，二者在GENMIP问题上均存在问题。作者猜测max距离效果不佳的原因是易受离群点的影响，而min的问题在于只考虑了A与B中最接近的一对实例之间的距离。因此，作者提出了新的一种距离——平均Hausdorff距离。其定义如下：
$aveH(A,B)={\sum_{a\in A}\min_{b\in B}||a-b||+\sum_{b\in B}\min_{a\in A}||b-a|| \over |A|+|B|}$
从概念上讲，平均Hausdorff距离比最大和最小Hausdorff距离更多地考虑了两个包实例之间的几何关系。

3.3.BAMIC

对于多示例聚类算法的地位，作者认为虽然其没有多示例预测算法（即有监督的多示例学习的重要性高，但其同样拥有其必要性。首先在有些情况下多示例学习中包的标签并不能轻易获得，有些时候可能需要付出非常昂贵的代价。比如对于分子的药物特性，如果对每个分子进行生化实验以获得其药物特性，这样的代价是相当昂贵的。因此，无监督学习的特点之一——不需要标签。是非常适用于这种情况的。通过聚类使得具有相似性质的分子聚集，可以促进药物的设计过程。其次，无监督学习可以帮助找到数据集的内部特征。无监督学习的结果可作为进一步分析的信息。对于多示例聚类，作者认为聚类多示例包的任务有其自身的特点，虽然在多实例聚类中缺少了包的标签，但不应将包视为独立实例的简单集合，而应仔细研究包中实例的特性和关系。

本文提出了一种多示例聚类算法BAMIC（BAg-level Multi-iIstance Clustering），BAMIC尝试将未标记的训练包划分为k组不相交的包，其中利用几种形式的Hausdorff度量来测量包之间的距离，并采用流行的k- medoids算法来完成聚类任务。 k-medoids算法是k-means算法的变体，聚类中心不是k-means算法中的均值，而是选取与其相近的真实实例。将包视作一个原子对象。通过k中心点算法聚类成k个簇，每组的中位数是与同一组中其他包的平均距离最小的包。其算法伪代码如下：
在这里插入图片描述
对于聚类的性能度量，作者选取了pipurity(纯度)和entropy（熵）来度量。其定义如下：
$avgpurity(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*{\max\{ W_j^0,W_j^1\}\over W_j} \\ avgentropy(\{G_1,...,G_K\})=\sum_{j=1}^k{W_j\over N}*(\sum_{l\in \{0,1\}}-{W_j^l\over W_j}log_2{W_j^l\over W_j})$

3.4.BARTMIP

对于多示例预测问题，由于多示例本身的特点，即数据由一组特征向量而非一个特征向量表述。传统的监督学习算法并不能在其之上获得很好的适配性。对此，目前有两种主要的思路来解决这个问题，一个是修改学习器，使其适应多示例数据包。使其关注的重点从实例的区分转向包的区分。另一种则反过来，修改多示例数据包使其适应传统的监督学习算法。

本文在BAMIC的帮助下，根据第二种策略，提出了一种新的多实例预测解决方案——BARTMIP。具体来说，首先使用之前介绍的BAMIC将训练袋聚成k组不相交的包。直观地说，由于聚类可以帮助找到数据集的内在结构，聚类的k组可能隐含地编码了一些关于不同包的空间分布的信息。因此，bartip会尝试基于聚类结果重新表示包。具体来说，每个袋子都由一个k维特征向量重新表示，其第i个特征对应于包与第i组中位数之间的距离。当所有的包转化为k维特征向量时，可以使用传统监督学习器对生成的特征向量进行训练，以区分包。其伪代码如下：
在这里插入图片描述