第一篇CrossVIT文献阅读收获体会

最新推荐文章于 2024-08-22 11:41:59 发布

凉皮r

最新推荐文章于 2024-08-22 11:41:59 发布

阅读量759

点赞数

文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/weixin_39243509/article/details/120893699

版权

本文作者分享了阅读CrossVIT文献的心得体会，论文提出了一种双分支视觉转换器，旨在解决Vision Transformer在多尺度特征提取上的不足。通过交叉注意力融合方法，CrossVIT在保持较高识别精度的同时，能在线性时间内交换信息。虽然参数量增加，但提高了图像分类的准确性。作者认识到预习的重要性，并计划深入研究论文，理解作者的思路和改进动机。

摘要由CSDN通过智能技术生成

本篇论文是本人阅读的第一篇文献，在听过同学对Transformer模型的讲解之后，作为研一刚看完一边吴恩达视频的小白，直接上手本篇文章，属实有点跨度大。选择本篇文献作为文献阅读报告，实属巧合。在组会上同学讲解完Transformer模型之后，老师就给了我这篇论文，说是阅读这篇文献，并于两天后进行PPT讲解。说实话，组会上同学讲解的Transformer模型，由于没有提前做好预习，我听得云里雾里的。而这篇文献还是基于Transformer模型的改进，于是我又在B站上找了大拿讲解的Transformer模型。这让我深刻意识到对之后参加组会一定要提前预习。在对Transformer模型有了了解之后，我便开始了论文阅读。

先是对摘要、介绍部分进行了阅读，了解了本片论文解决了哪些问题、做出了哪些改进、提出了哪些模型、得到了什么结论，并进行了简要梳理。在知道了CrossVIT是基于Vision Transformer的改进之后，我去B站找视频对Vision Transformer(VIT)模型进行了了解。知道了VIT模型相对于经典的Transformer模型做出了如下改进：

1）VIT只保留了Transformer模型的Encodes部分，舍弃了Decodes部分

2)使用一系列嵌入的图像补丁作为标准VIT的输入。

随后开始论文的正式阅读，把每一章都读一遍。通读之