DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification 论文阅读笔记
文中提出一种轻量化的预测模型用于决定剪去哪些tokens,称为DynamicViT。对于每个输入序列,使用二值化masking决定哪些tokens是没什么信息而需要丢弃的。通过剪去66%的输入tokens能够降低模型31%~37%的GFLOPs,效率提升超过40%,所有Transformer模型精度降低在0.5%以内。
原创
2021-12-08 22:57:37 ·
2560 阅读 ·
0 评论