m0_38007279-CSDN博客

原创 DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification 论文阅读笔记

文中提出一种轻量化的预测模型用于决定剪去哪些tokens，称为DynamicViT。对于每个输入序列，使用二值化masking决定哪些tokens是没什么信息而需要丢弃的。通过剪去66%的输入tokens能够降低模型31%~37%的GFLOPs，效率提升超过40%，所有Transformer模型精度降低在0.5%以内。

2021-12-08 22:57:37 2560

MIT 人脸库

MIT人脸数据集，图像尺寸为20*20像素，包含2707个正样本和4382个负样本

2018-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人