【论文阅读】ViT: AN IMAGE IS WORTH 16X16 WORDS 用Transformer干图像分类
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
用Transformer干碎CNN?
???? PDF Link ???? Github Code
Section 1. Introduction
Self-Attention在NLP里很火,例如Transformer。得益于计算效率以及可伸缩性,可以在训练出一个超过100B参数的巨大的模型,而且随着模型和数据集的增长,还没有出现性能饱和的现象。
在CV领域
原创
2021-01-23 17:59:37 ·
4493 阅读 ·
0 评论