Token Sparsification for Faster Medical Image Segmentation笔记

最新推荐文章于 2025-02-15 01:48:40 发布

小杨小杨1

最新推荐文章于 2025-02-15 01:48:40 发布

阅读量160

点赞数

分类专栏： # 全监督文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45745941/article/details/129704549

版权

全监督专栏收录该内容

158 篇文章

订阅专栏

文章提出了SCD方法，包括稀疏编码、Token补全和密集解码，用于医学影像分割。SCD通过Soft-topKTokenPruning（STP）预测并采样重要Token，以及多层Token组装（MTA）恢复完整序列，提高了训练和推断的效率。STP解决了现有方法如EVIT和DynamicViT的Token采样和分数估计问题，而MTA则帮助恢复详细信息，改善分割质量。实验结果显示，这种方法在保持分割质量的同时显著提升了速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Token稀疏使得更快得医学影像分割

摘要

利用稀疏标记进行密集预测
分割重新定义：稀疏编码→Token补全→密集解码(SCD)
提出soft-topk token修剪(STP)和多层token组装(MTA)
STP使用轻量级子网络预测token重要性分数，并对topK token进行采样
MTA通过组装稀疏输出token和修剪的多层中间token来恢复完整的token序列
密集解码阶段与现有的分割解码器兼容
在保持分割质量的同时，配备STP和MTA的SCD在训练(高达120%的吞吐量)和推断(高达60.6%的吞吐量)方面都比没有token修剪的基线快得多

引言

在本文之前没有Vit token 稀疏方法来分割
作者设计思路：
稀疏编码→Token补全→密集解码（SCD）
采用现有办法，EVIT和Dynamic Vit去稀疏编码，MIM用来token 补全
存在的问题：

token分数估计：EVIT的分数存在CLS里面，不便于分割解码器
token采样：DynamicViT将token采样框架为一系列独立的二进制决定，以保留或删除令牌。这并不能保证每个训练输入都有固定数量的采样令牌。为了适应批量训练，DynamicViT将所有标记保存在内存中，并mask自我注意条目，导致训练效率低下。
token补全：MIM对预训练有用，但它不能准确地恢复详细信息，导致分割结果较差

本文提出的方法：

Soft-topK Token Pruning（STP）：预测token重要性通过子网络，采用topK的分数的token，在内存和计算中只保留采样的标记来加速训练
MTA通过组装来自多层的稀疏输出token和修剪的中间令牌来恢复完整的令牌序列

方法

分割模型由编码器和解码器组成
目标是加速ViT分割编码器。
稀疏编码学习了一个用于加速的稀疏标记表示
令牌补全恢复密集预测的完整token
密集解码从密集特征中预测分割掩码
如图所示：
在这里插入图片描述

稀疏编码STP

TF是transformer模块
STP选择效果最佳的模块：由分数预测和选择组成
token的分数估计：
在这里插入图片描述
topk采样：
将离散topK掩模的采样放宽到一个连续的近似，即Gumbel-Softmax分布（方便求导），左边是前向，右边是反向:

token补全

输入为：稀疏编码加上被丢掉的token
网络为多层感知机
位置编码：
在这里插入图片描述

解码器

UNETR，需要来自编码器的多层输出的输入，这导致了问题，因为中间特征仍然稀疏
受最近研究的非层次特征金字塔的激励，使用补全网络的输出zcompl来替换分割头所需的所有中间特征

实验结果：
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小杨小杨1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。