- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification 论文阅读笔记
文中提出一种轻量化的预测模型用于决定剪去哪些tokens,称为DynamicViT。对于每个输入序列,使用二值化masking决定哪些tokens是没什么信息而需要丢弃的。通过剪去66%的输入tokens能够降低模型31%~37%的GFLOPs,效率提升超过40%,所有Transformer模型精度降低在0.5%以内。
2021-12-08 22:57:37
2560
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人