Vision Transformer相关

Transformer最初提出是针对NLP领域的,并且在NLP领域大获成功。这篇论文也是受到其启发,尝试将Transformer应用到CV领域。关于Transformer的部分理论之前的博文中有讲,链接,这里不在赘述。通过这篇文章的实验,给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的,而且效果还挺惊人。

1、Transformer、Self-Attention、Multi-Head Attention
博文:https://blog.csdn.net/qq_37541097/article/details/117691873
视频:https://www.bilibili.com/video/BV15v411W78M/


2、ViT(Vision Transformer)
博客地址:https://blog.csdn.net/qq_37541097/article/details/118242600
代码解析:https://blog.csdn.net/fulva/article/details/121045938


3、Swin-Transformer
视频:https://www.bilibili.com/video/BV1pL4y1v7jC/
博文:https://blog.csdn.net/qq_37541097/article/details/121119988

学习代码的步骤

  1. 搜该网络的讲解 —— 大概有一个印象
  2. 读原文(非常重要) —— 很多细节都是通过原论文实现的 —— 发现更多原来没有发现的知识点
  3. 读代码 —— github官方代码/复现的源码(⭐️多的)
    1. 根据作者的README.md将代码跑通 —— 跑通只是第一步而不是最后一步😂
    2. 分析网络搭建的部分 —— 结合原论文,还是比较好理解的
    3. 分析数据预处理和损失计算这两大部分 —— 不要小看这两大部分,比网络搭建有难度
    4. 网络搭建、数据预处理和损失计算看完之后,基本上就掌握了这个网络的核心技术点
    5. 看代码的过程中是需要结合原论文进行参考的。在读原论文的时候,有些地方是不太好理解的,而结合代码就可以进一步理解之前很难理解的部分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值