Attention-based Deep Multiple Instance Learning

最新推荐文章于 2024-07-05 20:48:15 发布

还在写BUG呢

最新推荐文章于 2024-07-05 20:48:15 发布

阅读量1k

点赞数 1

文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/Knight_ZJY/article/details/131053253

版权

文章提出了结合注意力机制的深度多示例学习方法，解决了传统MIL方法在可解释性和准确性上的权衡问题。通过神经网络参数化的实例变换和置换不变的聚合函数，模型在保持高性能的同时提供了对关键实例的识别，特别是在医学图像分析中，能指示潜在的ROI。实验表明，该方法在多个数据集上表现出色，尤其是在召回率上，这对于减少假阴性结果至关重要。

摘要由CSDN通过智能技术生成

Attention-based Deep Multiple Instance Learning

基于注意力机制的深度多示例学习

时间：2023/06/05

摘要

多示例学习(MIL)定义为学习包标签的伯努利分布，其中包标签的概率由神经网络完全参数化。
提出了一种基于NN的置换不变聚合算子，对应注意力机制。
该算子提供了每个示例对包标签的贡献的深入了解
实验结果，在banchmark数据集上取得与最佳MIL方法相当的性能，在不牺牲可解释性的情况下，在MNIST数据集和两个真实组织病理学数据集上优于其他方法。

引言

存在问题：

MIL的任务中，发现关键示例（Key instance）是许多MIL应用领域的一个重要挑战，例如医学图像中发现关键示例可以为临床实践提供较高的价值。对于分类问题，基于嵌入的MIL方法可以提供相对较高的准确率，但其可解释性就比较弱；基于示例的MIL方法的可解释性较高，但是其准确率则较低，且通常情况下MIL方法在示例级存在分歧。

目标： 将可解释性纳入MIL方法并增加其灵活性。

提出方案：

使用包标签的伯努利分布来建立MIL模型，并通过优化对数似然函数来训练它。

Fundamental Theorem of Symmetric Functions（对称函数的基本定理）——置换不变聚合函数

一个通用程序：

第一步：实例到低维嵌入的变换

第二步：置换不变（对称）聚合函数

第三步：包概率的最终转换

建议采用神经网络（卷积层+全连接层）对所有变换进行参数化。目的是为了使用神经网络的方法，允许通过优化无约束目标函数以端到端的方式训练模型。增加了灵活性。

建议用可训练加权平均代替广泛使用的置换不变算子（Max池化和Mean池化）。加权平均的权值由双层神经网络给出，即采用注意力机制为示例分配权重。值得注意的一点，注意力机制可以帮助我们找到关键示例，这些实例可以进一步用于突出可能的ROI。（投资回报率 (ROI)？？？）

在图像数据集中，我们提供了经验证据，证明我们的模型可以指示关键实例。

Methodology

MIL

1.基于标准MIL假设公式化MIL

$\begin{cases} 0,&iff\sum_ky_k=0,\\ 1,&otherwise. \end{cases} \tag{1}$

意味着MIL模型是permutation-invariant（置换不变的）（对称的）

2.采用最大算子表示：

$Y=\max_k{y_k}\tag{2}$

学习一个试图基于最大超实例标签来优化目标的模型是有问题的

原因：

所有基于梯度的学习方法都会遇到梯度消失的问题。
只有当使用实例级分类器时，此公式才适用

本文建议通过优化对数似然函数来训练MIL模型，其中包标签服从参数为 $\theta(X)\in [0.1]$ 的伯努利分布，即包含示例集X的包，标签Y=1的概率。

MIL方法

在MIL设置中，袋概率 $\theta(X)$ 必须是置换不变的，因为我们既不假设袋内实例的排序也不假设其依赖性。---->可以从对称函数的基本定理考虑MIL问题。

定理1：对于一组示例 $X$ ，其得分函数 $S(X)\in \mathbb{R}$ 是对称函数（即对 $X$ 中的元素置换不变），当且仅当其可以分解为以下形式：

$S(X)=g(\sum_{x\in X}f(x))\tag{3}$

其中g和f是适合的变换。

定理2：采用max代替sum，提供近似分解。

$|S(X)-g(\max_{x\in X}f(x))|<\epsilon\tag{4}$

定理1和定理2的区别在于，前者是普遍分解，而后者提供了任意近似。

通用的三步方法：

（i）使用函数f的实例变换

（ii）使用对称（置换不变）函数σ的变换实例的组合

（iii）使用函数g的f变换的组合实例的变换。

最后，分数函数的表现力依赖于f和g的函数类的选择。

MIL问题公式：

得分函数 $S (X)$ ==》概率

置换不变函数 $\sigma$ ==》MIL池化

函数 $f、g和\sigma$ 的选择决定了对标签概率建模的具体方法

两种MIL方法：

The instance-level approach:
- 转换方法 $f$ ：示例级分类器，输出示例的得分。
- MIL池化：对示例得分进行聚合得到 $\theta(X)$ 。
- 函数 $g$ ：恒等函数。
The embedding-level approach：
- 转换方法 $f$ ：将示例嵌入至低维度。
- MIL池化：将所有的低维示例嵌入成包表示。
- 通过包级分类器对包表示进行分类输出 $\theta(X)$

MIL with Neural Networks

使用神经网络参数化所有变换使得整个方法可以任意灵活，并且可以通过反向传播进行端到端训练。唯一的限制是MIL池必须是可微分的——便于梯度反向传播。

MIL pooling

MIL问题的公式化要求MIL池化 $\sigma$ 是置换不变的。常见的两种方式：最大池化和平均池化。

除此之外还有：

凸最大算子：log-sum-exp
Integrated Segmentation and Recognition
noisy-or和noisy-and

Attention-based MIL pooling

先前的MIL池化方法存在问题：预定义和不可训练的。

eg：max池化适用于示例级，但不适应包级。mean池化对聚合示例得分效果很差，但适用于包表示。

灵活和自适应的MIL池化方法可以通过调整任务和数据来获得更好的结果。这种MIL池化不同于之前的池化方法，即具备可解释性。

Attention mechanism

示例使用通过神经网络确定的权值，且保证所有的权值之和为1。加权平均满足定理1的要求，其中权重与嵌入一起是函数 $f$ 的一部分。

对于低维嵌入后的示例 $H=\{h_1,...,h_K\}$ ，本文的MIL Pooling处理：

$z=\sum_{k=1}^Ka_kh_k\tag{5}$

其中：

$a_k={exp\{w^Ttanh(Vh_k^T)\}\over\sum_{j=1}^Kexp\{w^Ttanh(Vh_j^T)\}}\tag{6}$

其中 $w\in \mathbb{R}^{L\times 1}$ , $V\in \mathbb{R}^{L\times M}$

我们利用双曲正切 $t anh (\cdot)$ 单元非线性来包括适当梯度流的负值和正值。所提出的构造允许发现实例之间的相似性。

有趣的是，所提出的MIL池对应于注意力机制的一个版本（Lin等人，2017；Raffel&Ellis，2015）。
主要的区别是，通常在注意力机制中，所有实例都是顺序相关的，而这里我们假设所有实例是独立的。
因此，一个自然产生的问题是，在没有实例之间的顺序依赖关系的情况下，注意力机制是否可以工作，以及它是否不会学习均值算子。
我们将在实验中解决这个问题。