VisionTransformer
文章平均质量分 60
NeverNeverEnough
2021级硕士,深度学习/计算机视觉/多模态,该账号用于记录学习过程,如有问题欢迎指正。
展开
-
【Swin-Unet】官方代码预训练权重加载函数load_from()详解
学习笔记原创 2022-08-28 22:53:51 · 3044 阅读 · 9 评论 -
【超详细】初学者包会的Vision Transformer(ViT)的PyTorch实现代码学习
本文参考了b站up霹雳吧啦Wz的视频稿件,图片均为该视频截图。代码来源timm库(PyTorchImageModels,简称timm)是一个巨大的PyTorch代码集合,已经被官方使用了。放一些链接:作者的GitHub主页,timm库链接,作者写的官方指南,以及一个非官方的推荐文章。模型示意图(Base16为例)PatchEmbed模块class PatchEmbed(nn.Module): """ 2D Image to Patch Embedding """ def原创 2021-11-14 11:03:11 · 23107 阅读 · 20 评论