多示例论文泛读--Attention-based Deep Multiple Instance Learning

最新推荐文章于 2024-08-12 09:02:40 发布

静仔小鱼大中华地区代言人

最新推荐文章于 2024-08-12 09:02:40 发布

阅读量806

点赞数

分类专栏：论文阅读文章标签：深度学习机器学习算法

本文链接：https://blog.csdn.net/qq_41643701/article/details/124716977

版权

论文阅读专栏收录该内容

15 篇文章

订阅专栏

基本概念

Permutation Invariant：指的是特征之间没有空间位置关系
Pooling(池化):是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合

实例级别： $f$ 是一个实例级别的分类器，返回值为每个实例的分数， $g$ 则是判别函数。
嵌入级别： $f$ 将实例映射为一个低维嵌入；MIL池化用于获取包的表示。

MIL池化

最大池化层：
$\forall_{m=1, \cdots, M}: z_{m}=\max _{k=1, \cdots, K}\left\{\mathbf{h}_{k m}\right\}$

最大池化层：
$\mathbf{z}=\frac{1}{K} \sum_{k=1}^{K} \mathbf{h}_{k}$

注意力机制

$H=\left\{\mathbf{h}_{1}, \cdots, \mathbf{h}_{K}\right\}$ 表示包的嵌入，MIL的嵌入为：
$\mathbf{z}=\sum_{k=1}^{K} a_{k} \mathbf{h}_{k}$
其中：
$a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\}}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V h}_{j}^{\top}\right)\right\}}$

门控注意力机制：
$a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{k}^{\top}\right)}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{j}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{j}^{\top}\right)},$