第一篇CrossVIT文献阅读收获体会

本文作者分享了阅读CrossVIT文献的心得体会,论文提出了一种双分支视觉转换器,旨在解决Vision Transformer在多尺度特征提取上的不足。通过交叉注意力融合方法,CrossVIT在保持较高识别精度的同时,能在线性时间内交换信息。虽然参数量增加,但提高了图像分类的准确性。作者认识到预习的重要性,并计划深入研究论文,理解作者的思路和改进动机。
摘要由CSDN通过智能技术生成

本篇论文是本人阅读的第一篇文献,在听过同学对Transformer模型的讲解之后,作为研一刚看完一边吴恩达视频的小白,直接上手本篇文章,属实有点跨度大。选择本篇文献作为文献阅读报告,实属巧合。在组会上同学讲解完Transformer模型之后,老师就给了我这篇论文,说是阅读这篇文献,并于两天后进行PPT讲解。说实话,组会上同学讲解的Transformer模型,由于没有提前做好预习,我听得云里雾里的。而这篇文献还是基于Transformer模型的改进,于是我又在B站上找了大拿讲解的Transformer模型。这让我深刻意识到对之后参加组会一定要提前预习。在对Transformer模型有了了解之后,我便开始了论文阅读。

先是对摘要、介绍部分进行了阅读,了解了本片论文解决了哪些问题、做出了哪些改进、提出了哪些模型、得到了什么结论,并进行了简要梳理。在知道了CrossVIT是基于Vision Transformer的改进之后,我去B站找视频对Vision Transformer(VIT)模型进行了了解。知道了VIT模型相对于经典的Transformer模型做出了如下改进:

1)VIT只保留了Transformer模型的Encodes部分,舍弃了Decodes部分

2)使用一系列嵌入的图像补丁作为标准VIT的输入。

随后开始论文的正式阅读,把每一章都读一遍。通读之

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值