Token Sparsification for Faster Medical Image Segmentation笔记

Token稀疏使得更快得医学影像分割

摘要

  • 利用稀疏标记进行密集预测
  • 分割重新定义:稀疏编码→Token补全→密集解码(SCD)
  • 提出soft-topk token修剪(STP)和多层token组装(MTA)
  • STP使用轻量级子网络预测token重要性分数,并对topK token进行采样
  • MTA通过组装稀疏输出token和修剪的多层中间token来恢复完整的token序列
  • 密集解码阶段与现有的分割解码器兼容
  • 在保持分割质量的同时,配备STP和MTA的SCD在训练(高达120%的吞吐量)和推断(高达60.6%的吞吐量)方面都比没有token修剪的基线快得多

引言

在本文之前没有Vit token 稀疏方法来分割
作者设计思路:
稀疏编码→Token补全→密集解码(SCD)
采用现有办法,EVIT和Dynamic Vit去稀疏编码,MIM用来token 补全
存在的问题:

  1. token分数估计:EVIT的分数存在CLS里面,不便于分割解码器
  2. token采样:DynamicViT将token采样框架为一系列独立的二进制决定,以保留或删除令牌。这并不能保证每个训练输入都有固定数量的采样令牌。为了适应批量训练,DynamicViT将所有标记保存在内存中,并mask自我注意条目,导致训练效率低下。
  3. token补全:MIM对预训练有用,但它不能准确地恢复详细信息,导致分割结果较差

本文提出的方法:

  1. Soft-topK Token Pruning(STP):预测token重要性通过子网络,采用topK的分数的token,在内存和计算中只保留采样的标记来加速训练
  2. MTA通过组装来自多层的稀疏输出token和修剪的中间令牌来恢复完整的令牌序列

方法

分割模型由编码器和解码器组成
目标是加速ViT分割编码器。
稀疏编码学习了一个用于加速的稀疏标记表示
令牌补全恢复密集预测的完整token
密集解码从密集特征中预测分割掩码
如图所示:
在这里插入图片描述

稀疏编码STP

TF是transformer模块
STP选择效果最佳的模块:由分数预测和选择组成
token的分数估计:
在这里插入图片描述
topk采样:
将离散topK掩模的采样放宽到一个连续的近似,即Gumbel-Softmax分布(方便求导),左边是前向,右边是反向:
在这里插入图片描述

token补全

输入为:稀疏编码加上被丢掉的token
网络为多层感知机
位置编码:
在这里插入图片描述

解码器

UNETR,需要来自编码器的多层输出的输入,这导致了问题,因为中间特征仍然稀疏
受最近研究的非层次特征金字塔的激励,使用补全网络的输出zcompl来替换分割头所需的所有中间特征

实验结果:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值