使用Vision Transformers实现高效语义分割的内容感知共享Token

最新推荐文章于 2024-07-09 21:27:41 发布

小杨小杨1

最新推荐文章于 2024-07-09 21:27:41 发布

阅读量1.1k

点赞数

分类专栏： # 全监督文章标签：深度学习人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_45745941/article/details/131221291

版权

全监督专栏收录该内容

128 篇文章 4 订阅

订阅专栏

本文提出了一种名为Content-awareTokenSharing(CTS)的方法，旨在提高基于视觉转换器的语义分割网络的效率。通过策略网络预测并允许语义相似的图像块共享Token，从而减少计算量而不影响分割质量。实验结果显示，此方法能有效提升效率。

摘要由CSDN通过智能技术生成

文章目录

Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers

Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers

摘要

本文介绍了Content-aware Token Sharing（CTS），这是一种Token 减少方法，可以提高使用视觉转换器（ViTs）的语义分割网络的计算效率。现有的工作已经提出了Token 减少方法来提高基于ViT的图像分类网络的效率，但这些方法并不直接适用于我们在本工作中解决的语义分割。我们观察到，对于语义分割，如果多个图像块包含相同的语义类，则它们可以共享一个Token ，因为它们包含冗余信息。我们的方法通过使用一个高效的、与类无关的策略网络来利用这一点，该策略网络可以预测图像补丁是否包含相同的语义类，并允许它们共享Token 。
代码地址
在这里插入图片描述
Content-aware Token Sharing（CTS）。基于ViT的标准分割网络将固定大小的patch转换为token，并处理所有这些patch。为了提高效率，我们建议让语义相似的patch共享一个token，并在不降低分割质量的情况下实现相当大的效率提升。

本文方法

在这里插入图片描述
数据集统计信息：展示了有多少图像具有一定百分比的包含单个语义类的超匹配。我们假设这些超级伙伴可以共享一个token。

Content-aware token sharing framework

在这里插入图片描述
方法概述：

引入了一个策略网络p，该网络预测哪些图像patch可以在不降低性能的情况下共享令牌。
使用token共享模块ts将这些patch组合为单个令牌。随后，剩余的token通过 transformer模型馈送，并使用模块tu“共享”输出token
在进行每个token预测之后或在进行每像素预测之前

Content-aware token sharing policy

在这里插入图片描述
Token sharing policy：我们教导我们的Token sharing policy网络，如果超级patch包含单个语义类，那么它应该共享token
从左到右：（a）具有超级patch网格的输入图像；（b）分割标签；（c）包含单个类的超级patch；（d）类别不可知的标签

实验结果

在这里插入图片描述

小杨小杨1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用Vision Transformers实现高效语义分割的内容感知共享Token

本文介绍了Content-aware Token Sharing（CTS），这是一种Token 减少方法，可以提高使用视觉转换器（ViTs）的语义分割网络的计算效率。现有的工作已经提出了Token 减少方法来提高基于ViT的图像分类网络的效率，但这些方法并不直接适用于我们在本工作中解决的语义分割。我们观察到，对于语义分割，如果多个图像块包含相同的语义类，则它们可以共享一个Token ，因为它们包含冗余信息。
复制链接

扫一扫