#今日论文推荐# 微软提出MiniViT | 把DeiT压缩9倍，性能依旧超越ResNet等卷积网络

最新推荐文章于 2024-08-30 12:54:54 发布

wwwsxn

最新推荐文章于 2024-08-30 12:54:54 发布

阅读量93

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/6279d62c7cb68b460fb446b7?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 微软提出MiniViT | 把DeiT压缩9倍，性能依旧超越ResNet等卷积网络

大规模预训练的Vision TRansformer，如ViT, CvT和Swin，由于其高性能和下游任务的优越性能，最近引起了极大的关注。然而，它们通常涉及巨大的模型尺寸和大量的训练数据。例如，ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型，才实现了图像分类的最先进性能。同时，Swin使用2-3亿个参数，并在ImageNet-22K上进行了预训练，以在下游检测和分割任务上取得良好的性能。

数以亿计的参数消耗了相当大的存储和内存，这使得这些模型不适合涉及有限计算资源的应用程序，如边缘和物联网设备，或者需要实时预测的任务。最近的研究表明，大规模的预训练模型是过度参数化的。因此，在不影响这些预训练模型性能的情况下，消除冗余参数和计算开销是必要的。

权重共享是一种简单且有效的减少模型尺寸的技术。神经网络中权重共享的最初想法是在20世纪90年代由LeCun和Hinton提出的，最近被重新发明用于自然语言处理(NLP)中的Transformer模型压缩。最具代表性的工作是ALBERT，它引入了一种跨层权重共享的方法，以防止参数的数量随着网络深度的增加而增长。该技术可以在不严重影响模型性能的情况下显著降低模型尺寸，从而提高参数效率。然而，Weight sharing在Vision Transformer压缩中的有效性尚未得到很好的探索。

为了验证这一点，作者在DeiT-S和Swin-B Transformer上执行跨层权重共享。出乎意料的是，这种直接使用权重共享带来了2个严重的问题:

论文题目：MiniViT: Compressing Vision Transformers with Weight Multiplexing
详细解读：https://www.aminer.cn/research_report/6279d62c7cb68b460fb446b7?download=falsehttps://www.aminer.cn/research_report/6279d62c7cb68b460fb446b7?download=false
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# 微软提出MiniViT | 把DeiT压缩9倍，性能依旧超越ResNet等卷积网络

#今日论文推荐# 微软提出MiniViT | 把DeiT压缩9倍，性能依旧超越ResNet等卷积网络大规模预训练的Vision TRansformer，如ViT,CvT和Swin，由于其高性能和下游任务的优越性能，最近引起了极大的关注。然而，它们通常涉及巨大的模型尺寸和大量的训练数据。例如，ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型，才实现了图像分类的最先进性能。同时，Swin使用2-3亿个参数，并在ImageNet-22K上进行了预训练，以在下游检测和分割任务上取得良好的性能。.
复制链接

扫一扫

专栏目录