TransMIL_MIL文献阅读(1)

MIL文献阅读(1) TransMIL

文献名:TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classification

期刊:NeurIPS

发表时间:2021

任务类型:多实例学习(MIL)

前人存在的问题

  1. 之前的所有假设都假设instance都是独立同分布的(i.i.d);但事实上并不是。

  2. 之前的transformer的计算效率太低;

方法

问题构建(problem formulation)

MIL问题构建:

MIL问题结构

定理引入

定理一 说明可以利用文本的结构近似分数:

在这里插入图片描述

定理二 说明利用 相关attention的优势:相较于独立同分布假设可以减少无效信息;

在这里插入图片描述

方法介绍

算法流程图:

在这里插入图片描述

其中,函数 f f f h h h 分别用来获取形态学特征和位置特征;

  • 算法分为3步:
  1. 利用函数 f f f 和 函数 h h h 进行特征提取;
  2. 利用池化矩阵 P P P 进行池化,这里的池化矩阵是由自注意力机制得到的;
  3. 利用函数 g g g获得分类结果;

算法整体结构图如图所示:

在这里插入图片描述

从图中不难看出,函数的流程图和算法伪代码很好地对应。

使用预训练的ResNet50进行特征提取,对应函数 f f f和函数 h h h;利用自注意力机制进行特征映射,也就是函数 P P P;利用多层感知机实现分类,对应函数 g g g

TPT模块

中间的特征映射部分由两个Transformer层和一个position编码层(PPEG)组成,因此被成为TPT模块。

TPT模块伪代码:

在这里插入图片描述

该模块作为文章中最重要的一个模块,下面将要详细介绍。

  • Squaring of sequence

这步操作将整个特征矩阵 H S H_S HS 的特征向量的个数(去掉class token)可以被开方,方便后续关于位置编码的操作;

  • attention机制

attention机制使用经典的多头注意力机制,详细说明在文章的附录中。

在这里插入图片描述

  • PPEG获取位置信息

PPEG 也就是 Pyramid Position Encoding Generator,用来提供位置编码信息。

这样的设计起初被用在自然图像中,这里引入到医疗图像中,因此没有办法像自然图像那样保持原有的token之间的位置关系。但是通过文章的消融实验发现有不错的效果,因此该部分被保留。

算法整体流程见下图:

在这里插入图片描述

将patch tokens聚合成 N \sqrt{N} N 大小的特征矩阵,经过不同大小的卷积网络卷积,求和得到最终融合了位置特征的特征矩阵。

需要回答的问题:

  1. 是如何应对每个instance不是独立同分布的?

使用多头注意力机制,同时考虑多个patch之间的关系。

  1. 如何保证使用attention机制的运算量较小?

利用 Nystrom Method 实现attention机制的近似计算。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值