【论文阅读】An Iterative Instance Selection Based Framework for Multiple-Instance Learning

Windingd

已于 2022-06-08 11:55:49 修改

阅读量188

点赞数

分类专栏：论文阅读文章标签：机器学习人工智能

于 2022-05-31 21:25:03 首次发布

本文链接：https://blog.csdn.net/qq_43505356/article/details/125065367

版权

论文阅读专栏收录该内容

21 篇文章

订阅专栏

题目

An Iterative Instance Selection Based Framework for Multiple-Instance Learning
一种基于迭代实例选择的多示例学习框架
2018 IEEE 30th International Conference on Tools with Artificial Intelligence -C

摘要

基于实例选择的模型是一种有效的多示例学习（MIL）框架，它通过将示例（实例包）嵌入到由一些概念（由一些选定实例表示）形成的新特征空间中来解决 MIL 问题。
大多数先前的研究使用单点概念进行实例选择，其中每个可能的概念仅由单个实例表示。在本文中，我们应用多点概念来选择实例，其中每个可能的概念由一组相似的实例联合表示。此外，我们基于多点概念建立了一个基于迭代实例选择的 MIL 框架，保证自动收敛到给定问题所需的概念数量。
实验结果表明，与最先进的 MIL 算法相比，所提出的框架不仅可以更好地处理常见的 MIL 问题，还可以更好地处理混合问题。

算法

符号系统

符号	表示
$D$	训练集
$B_i^+=\{\boldsymbol{x}_{ij}^+ \| j=1,\dots,n_i^+\}$	正包
$\boldsymbol{x}_{ij}^+$	实例
$B_i^-，\boldsymbol{x}_{ij}^-，n_i^-$	同上
$B_i$	包
$\boldsymbol{x}$	实例
$m^+$	正包个数
$m^-$	负包个数
$n c$	预定义的最大概念数(非常大)
$n a c$	实际学习的正概念数量

MIL假设的进一步分析

对于标准MIL假设，所有正包都包含同一类实例（正实例），正实例与目标概念（正类）相关
对于广义MIL假设，每个正包包含几种不同类型的实例，这些实例与正类相关。比如海滩图像中包含沙滩和海洋
与目标概念相关的相同类型的实例出现在所有正包中
动机：从一个正包中的一个相关实例 x 开始在每个正包中搜索它的最近邻居，我们将得到一组相似的实例。显然，这些相似的实例很可能也属于同一类。因此，它们可以表示一个概念

MILMPC方法概述

step1:概念提取：从所有正包中收集实例，并在每个实例中从每个正袋中搜索其最近邻居，每一组邻居都被视为一个候选的多点概念（candidate multiple-point concepts）
step2：相关性（relevance）计算：根据相关性评估标准，计算每个候选概念与正类的相关性
step3：初始概念选择：从候选概念中选择相关性最高的概念，并加入空的多点概念集（multiple-point-concept set）
step4：冗余度（redundancy）计算：计算每个候选概念到概念集的冗余
step5：概念选择：如果存在最非冗余且相关的候选概念，将其添加到概念集，并返回步骤4；否则终止迭代
在这里插入图片描述

迭代实例选择方法的组成部分

candidate multiple-point concepts
$C_{\boldsymbol{x}}$ ,包括 $\boldsymbol{x}$ 在每个正包中的最近邻
$C_{\boldsymbol{x}}=\{n_{\boldsymbol{x}}(B_i^+)|B_i^+\in D\}$
$B_i^+$ 中， ${\boldsymbol{x}}$ 的最近邻居
$n_{\boldsymbol{x}}(B_i^+)=\mathop{\text{argmin}}\limits_{{\boldsymbol{x}}_{ij}^+\in B_i^+}\| \boldsymbol{x}_{ij}^+ -\boldsymbol{x}\|_2^2$
对所有正包中的实例提取一组候选概念

相关性定义：
在所有正包中共存的近邻实例的数量反应了 $C_{\boldsymbol{x}}$ 与目标概念（正类）的相关程度。使用 $C_{\boldsymbol{x}}$ 中所有实例的平均数来评估相关性：

基于majority voting的相关性: $r_v(C_{\boldsymbol{x}})$ , $C_{\boldsymbol{x}}=\{\boldsymbol{x}_k|k=1,\dots,m^+\}$
$r_v(C_{\boldsymbol{x}})=\frac{1}{m^+}\mathop{\sum}\limits_{k=1}^{m^+}|N_{\boldsymbol{x}_k} \cap N_{C_{\boldsymbol{x}}}|,$
$N_{\boldsymbol{x}_k}=C_{{\boldsymbol{x}_k}}$ ,由 ${\boldsymbol{x}_k}$ 从所有正包中确定的近邻
$N_{C_{\boldsymbol{x}}}=\{n_{C_{\boldsymbol{x}}}(B_i^+)|B_i^+\in D\}$ ， $n_{C_{\boldsymbol{x}}}(B_i^+)=v(\{n_{\boldsymbol{x}_k}(B_i^+)|{\boldsymbol{x}_k} \in C_{\boldsymbol{x}}\})$ ， $v(\cdot)$ 是一个投票函数
（对 $C_{\boldsymbol{x}}$ 中的每一个实例 $\boldsymbol{x}_k$ 找其在 $B_i^+$ 中得到近邻，则 $B_i^+$ 中为近邻次数最多的实例作为 $C_{\boldsymbol{x}}$ 在 $B_i^+$ 中的近邻；如此C_{\boldsymbol{x}}对每一个正包都有一个近邻，得到 $N_{C_{\boldsymbol{x}}}$ ）
(如果交集为空呢？)

冗余度
冗余是指一个候选概念 $C_{\boldsymbol{x}}$ 在多大程度上对当前概念集(multiple-point concept set)是冗余的
这表明 $C_{\boldsymbol{x}}$ 到 $C$ 的冗余与 $C_{\boldsymbol{x}}$ 中 $C$ 的相对补码的大小有关(the size of the relative complement )
$d(C_{\boldsymbol{x}})=|{C_{\boldsymbol{x}}}/C{}|$

伪代码

在这里插入图片描述
$C=\{{\boldsymbol{x}_k|k=1,\dots,n}\}$
特征向量 $\xi(B_i)=[h(B_i,\boldsymbol{x}_1),\dots,h(B_i,\boldsymbol{x}_n)]^T$
分类器：具有高斯核的标准 SVM，LIBSVM 用于训练所有 SVM

实验

数据集

遵循标准MIL假设：MUSK1 、MUSK2
遵循广义假设：COREL
例如，一张海滩图像不包含任何真正的海滩区域，而是包含沙子和水区域，而这些块共同决定了该图像的类别。
遵循混合假设：Elephant, Fox, and Tiger
一些正包可能包含目标动物，而其他正包可能只包含目标动物的部分而不包含目标动物