【CVPR2023】TPS详解:联合令牌剪枝与压缩以实现视觉变形器更积极的压缩
0. 引言
虽然 Vision Transformers (ViTs)近年来在各种计算机视觉任务中展示出良好的效果,但是 Transformers 的高复杂度
给计算机资源带来了沉重的负担。ViTs 方面的讲解:ViT 和 基于知识蒸馏的ViT(DeiT)。为了克服 Transformers 存在的问题,众多学者提出了自己的见解。其中主要包括以下几个方面:
- 最简单的方法(
减少Transformers模块比重
,增加CNN模块)------MobileViT详解 - 通过减少模型输入(正确的说:通过Mask的方法
减少模型输入
,然后通过Encoder-Decoder重构原始图形)。