本篇论文是本人阅读的第一篇文献,在听过同学对Transformer模型的讲解之后,作为研一刚看完一边吴恩达视频的小白,直接上手本篇文章,属实有点跨度大。选择本篇文献作为文献阅读报告,实属巧合。在组会上同学讲解完Transformer模型之后,老师就给了我这篇论文,说是阅读这篇文献,并于两天后进行PPT讲解。说实话,组会上同学讲解的Transformer模型,由于没有提前做好预习,我听得云里雾里的。而这篇文献还是基于Transformer模型的改进,于是我又在B站上找了大拿讲解的Transformer模型。这让我深刻意识到对之后参加组会一定要提前预习。在对Transformer模型有了了解之后,我便开始了论文阅读。
先是对摘要、介绍部分进行了阅读,了解了本片论文解决了哪些问题、做出了哪些改进、提出了哪些模型、得到了什么结论,并进行了简要梳理。在知道了CrossVIT是基于Vision Transformer的改进之后,我去B站找视频对Vision Transformer(VIT)模型进行了了解。知道了VIT模型相对于经典的Transformer模型做出了如下改进:
1)VIT只保留了Transformer模型的Encodes部分,舍弃了Decodes部分
2)使用一系列嵌入的图像补丁作为标准VIT的输入。
随后开始论文的正式阅读,把每一章都读一遍。通读之