vit论文精读读后感

最新推荐文章于 2024-11-12 20:45:11 发布

irony_202

最新推荐文章于 2024-11-12 20:45:11 发布

阅读量2k

点赞数

文章标签：机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/irony_202/article/details/123561308

版权

vision transformer打破了CV和NLP领域的鸿沟，通过将一张图片切成小块后按序输入给模型（将一个像素点在三个通道的特征打平，变成一个像素点对应768个维度的特征），将CV问题转变成NLP问题，采用了bert的只用一个编码器的结构，结果证明了是可行的，并且在大数据集预训练后分类效果比之前最好的CNN效果还要好，并且训练速度更快。但是vit在较小规模的数据集效果不行，因为vit缺少了cnn的很多归纳偏置，需要较大的数据集去重新学习很多cnn一开始就灌输的经验如局部性和平移不变性。