![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机视觉基础
文章平均质量分 78
计算机视觉基础模型等
盛开着永不凋零
拉力不出城,仿赛在摩旅
展开
-
MobileViT摘要
纯Transformer的问题:1、参数多,复杂度高2、缺少空间归纳偏置3、迁移到其他任务比较繁琐4、模型训练困难解决方法:将CNN与Transformer混合使用。由于CNN有空间归纳偏置,所以不再需要位置编码。并且可以加速网络收敛。原创 2023-04-22 19:43:42 · 120 阅读 · 0 评论 -
语义分割笔记
语义分割:FCN实例分割:MASK R-CNN全景分割:panoptic FPN。原创 2023-04-25 19:05:27 · 389 阅读 · 0 评论 -
Convnext前传----resnext及pytorch实现
套娃一下,resnext又与VGG,inception,resnet相关联。原创 2023-04-16 17:05:37 · 225 阅读 · 0 评论 -
Vit极简原理+pytorch代码
Vit比它爹Transformer步骤要简单的多,需要注意的点也要少得多,最令人兴奋的是它在代码中没有令人头疼的MASK,还有许多简化的操作,容我慢慢道来。原创 2023-04-10 15:52:07 · 2180 阅读 · 1 评论 -
Swin Transformer代码详解(必懂)
上一篇文章中我们写完了最难的两个数学原理部分,mask和相对位置编码的代码。本篇文章将讲解Swin的全部代码。文章仅供学习,若有纰漏请不吝赐教。全部代码放在文章最后。我看这些代码的经验是跟着维度一点一点的串,当然只是个人经验。可以跟我下面的维度图走。原创 2023-04-14 22:57:14 · 4117 阅读 · 2 评论 -
Convnext实现(pytorch)
整体:类似于patchify,使用卷积核大小为4*4,步距为4的卷积层的stem → LN → stage1 → 类似于patchmerging的downsample,使用卷积核大小为2*2,步距为2 → stage2 → ...... → 全局平均池化+LN+Linear。原创 2023-04-19 10:26:10 · 1032 阅读 · 0 评论 -
A Convnet for 2020s 笔记
Swin Transformer表现得很好,并且可以作为通用的骨干网络。然而,这种混合方法的有效性在很大程度上归功于Transformer的内在优越性,而不是卷积的固有的归纳偏差。于是,我们重新调查了设计空间并且测试了纯卷积网络所能达到的极限。将一个标准resnet朝着Vit的方向现代化.原创 2023-04-18 19:28:05 · 166 阅读 · 0 评论 -
Swin Transformer之Mask和相对位置编码代码详解
Swin Transformer的详细原理我已经在上一篇文章写过了,这回我来细细的写一篇它的代码原理。有朋友跟我反应Vit代码直接全贴上去光靠注释也不容易看懂,这会我用分总的方法介绍。注:此代码支持多尺度训练。文章仅供学习先从最难的下手。原创 2023-04-14 15:36:43 · 2133 阅读 · 1 评论 -
Swin Transformer详解
Vit出现后虽然让大家看到了Transformer在视觉领域的潜力,但并不确定Transformer可以做掉所有视觉任务。Swin Transformer可以作为一个通用的骨干网络。面对的挑战:1、多尺度。2、高像素。移动窗口提高效率,并通过Shifted操作变相达到全局建模能力。层次结构:灵活,可以提供各个尺度特征信息,容易使用到下游任务中。最后分层设计和移位窗口方法也被证明对所有mlp体系结构都是有益的。原创 2023-04-11 19:26:40 · 4795 阅读 · 1 评论 -
前Vit时代CV模型大串烧
首次应用cpurelu替代sigmoid和tanhiLRN局部响应归一化dropout。原创 2023-04-20 23:52:08 · 136 阅读 · 0 评论