【Attentionbased-Multi Instance Learning(A-MIL)笔记——多示例学习】

文章主要贡献

  1. 可解释性融入到MIL方法中,并增加其灵活性
  2. 应用对称函数的基本定理提供了建模袋子标签(bag level)概率(袋子分数函数(score function)的一般过程
  3. 用一种可训练的加权平均来代替广泛使用的置换不变算子

贡献1——可解释性融合

即使用神经网络参数化所有变换。
灵活性
本篇文章将寻常MIL中的置换不变算子改为了具有参数的可学习可更新的注意力算子,这使得提出的基于注意力的 MIL 池化允许对 bag 内的实例分配不同的权重,因此 bag 的最终表示可能对 bag 级分类器非常有信息。换句话说,它应该能够找到关键实例。此外,将基于注意力的 MIL 池化与由神经网络参数化的转换 𝑓 和 𝑔 结合应用,使整个模型完全可微分和自适应。这两个事实使得提出的 MIL 池化成为一个潜在的非常灵活的操作符,可以建模任意置换不变的评分函数。
可解释性
理想情况下,在正标签(𝑌=1)的情况下,高注意力权重应分配给可能具有标签 𝑦𝑘=1 的实例(关键实例)。也就是说,注意力机制允许轻松解释提供的决策,具体到实例级别的标签。实际上,注意力网络不提供实例级分类器那样的评分,但可以被认为是它的代理。基于注意力的 MIL 池化桥接了实例级方法和嵌入级方法。

贡献2——Bag标签概率

  1. 对称函数 对称函数的对称性指的是对输入顺序的变换(置换)不会改变输出结果。这种对称性确保了函数对集合中的元素顺序不敏感。
  2. 置换不变性 如果一个函数 𝑓对这个集合的任意排列返回相同的结果,那么这个函数就是置换不变的。即 𝑓({𝑎,𝑏,𝑐})=𝑓({𝑏,𝑐,𝑎})=𝑓({𝑐,𝑎,𝑏})。
  3. 数学上的对称性 在数学上,对称性通常涉及群论中的对称群(Symmetric Group)。一个对称群包含所有可能的元素置换(排列),并且对称操作组成一个群。在这种情况下,对称性和置换不变性是紧密相关的,因为它们都描述了系统在特定变换下保持不变的性质。

建模袋子标签概率的一般过程如下所示:

  1. 将实例变换为低维嵌入(low-dimensional embedding)
  2. 将实例通过置换不变(对称)聚合函数
  3. 最终建立袋概率的最终变换函数

低维嵌入 :

在许多应用中,实例并不是直接可以使用的原始特征,而是需要通过神经网络进行特征提取。这就是𝑓𝜓 的作用,它将每个实例 𝑥𝑘 转换成一个低维嵌入 ℎ𝑘 。这种特征提取步骤对于图像、文本等复杂数据尤其重要。

聚合操作 :

为了确保模型对实例顺序的不敏感性,需要对嵌入进行聚合。聚合操作𝑔𝜙将所有实例的嵌入 ℎ1,ℎ2,…,ℎ𝐾转换成一个整体表示 𝜃(𝑋)在基于实例的方法中,聚合操作可能是简单的求和、平均等;在基于嵌入的方法中,聚合操作可以由另一个神经网络实现。

Score Function :

Score函数的定义:

𝑆(𝑋)=𝑔(∑𝑥∈𝑋𝑓(𝑥))

Score函数的组成部分:

集合 𝑋 :一个bag,包含多个实例(数据点) 。

𝑓(𝑥):一个函数或网络层,对每个实例 𝑥进行处理,提取特征或计算一个中间值。

∑𝑥∈𝑋𝑓(𝑥):对所有实例的处理结果进行求和或聚合,生成一个bag级别的表示。这个部分就是置换不变函数 。我们可以将公式更一般化地表示为:𝑆(𝑋)=𝑔(𝜎(𝑓(𝑥1),𝑓(𝑥2),…,𝑓(𝑥𝐾))),这个 𝜎是求和操作 ∑,𝜎又被叫做MIL池化(MIL pooling)

𝑔(⋅):另一个函数或网络层,对聚合结果进行进一步处理,生成最终的分数或输出值。

贡献3——加权平均

过去的研究中,在进行包标签概率计算时,常用到以下置换不变算子

最大值操作(Maximum Operator):
对每个特征维度 𝑚,找到所有实例中该维度的最大值。最大值操作使得池化结果对极端值(例如高置信度的实例)更敏感。
平均值操作(Mean Operator):
对所有实例的特征进行平均。平均值操作使得池化结果对所有实例都有贡献,更加平滑。
其他操作:
凸最大值操作(log-sum-exp):
通过对数和指数的组合,平滑最大值计算,使其可微分且数值稳定。
Noisy-or 和 Noisy-and 操作:
在概率图模型中用于处理不确定性,通过引入噪声进行逻辑运算的近似。

然而以上方法都存在一个明显的缺点,即它们是预定义的且不可训练的。例如,最大操作符在基于实例的方法中可能是一个很好的选择,但在基于嵌入的方法中可能不合适。
在传统的多实例学习(MIL)问题中,池化操作通常是预定义的且不可训练的,这是因为这些操作被设计为简单且易于实现的函数。例如:
最大操作符(Max Operator):选取一个 bag 中所有实例特征的最大值。
均值操作符(Mean Operator):计算一个 bag 中所有实例特征的平均值。

这些操作是预定义的,因为它们是固定的数学函数,不依赖于任何外部参数或训练数据。它们不具有可调整的参数,因此在训练过程中无法适应数据的变化。换句话说,这些操作没有学习的能力,只能按预定的方式工作。
本文采取的是基于注意力机制的多实例学习池化(Attention-based MIL Pooling),其中使用了具有多个参数(可学习的地方)的注意力函数以及门控机制,门控是用来弥补tanh函数在[−1,1] 时近似线性这个缺点的机制。以下是原文部分文段翻译:
在这里插入图片描述
在这里插入图片描述

论文原文可从以下链接获取:
https://proceedings.mlr.press/v80/ilse18a.html?ref=https://githubhelp.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值