深度学习之图像分类(三十一)-- CycleMLP网络详解 深度学习之图像分类(三十一)CycleMLP网络详解目录深度学习之图像分类(三十一)CycleMLP网络详解1. 前言2. CycleMLP2.1 CycleMLP Block2.2 整体网络结构3. 下游任务实验4. 消融实验4. 总结与反思5. 代码这应该是目前最后学习的一篇 MLP 架构的论文了,CycleMLP 其实和 AS-MLP 的思想基本一致,让我们来详细看看。1. 前言本此学习香港大学&商汤联合提出的 CycleMLP。这也是我看到的除 AS-MLP 外将纯 MLP 做成
深度学习之图像分类(三十)-- Hire-MLP网络详解 深度学习之图像分类(三十)Hire-MLP网络详解目录深度学习之图像分类(三十)Hire-MLP网络详解1. 前言2. Hire-MLP2.1 Hire-MLP Block2.1.1 Inner-Region2.1.2 Cross-Region2.1.3 特征融合2.1.4 HireMLP 和 ViP,AS-MLP 的区别?2.2 整体网络结构3. 消融实验4. 总结与反思5. 代码一晃都学习了三十个网络了,时间过得真快。本次学习华为提出的 Hire-MLP,依然是通过旋转特征图,将不同位置的特征对齐到
深度学习之图像分类(二十九)-- Sparse-MLP网络详解 深度学习之图像分类(二十九)Sparse-MLP网络详解目录深度学习之图像分类(二十九)Sparse-MLP网络详解1. 前言2. sMLPNet2.1 整体网络结构2.2 Token-mixing MLP2.3 计算复杂度3. 消融实验4. 反思与总结5. 代码本文再次讲述一篇新的 Sparse-MLP 工作,其的 Sparse 主要描述在感受野层面,与 MLP-Mixer 的全局感受野相比,本网络的感受野是轴向的,所以是稀疏的。本文可以看作是 ConvMLP 和 ViP 的结合,但是其发布时间早 C
深度学习之图像分类(二十八)-- Sparse-MLP(MoE)网络详解 深度学习之图像分类(二十八)Sparse-MLP(MoE)网络详解目录深度学习之图像分类(二十八)Sparse-MLP(MoE)网络详解1. 前言2. Mixture of Experts2.1 背景2.2 MoE2.3 损失函数2.4 Re-represent Layers3. 消融实验4. 反思与总结本工作向 Vision MLP 中引入 Mixture-of-Experts (MoE), 但是 发现其 MoE 使用方法和 Scaling Vision with Sparse Mixture of
深度学习之图像分类(二十七)-- ConvMLP 网络详解 深度学习之图像分类(二十七)ConvMLP 网络详解目录深度学习之图像分类(二十七)ConvMLP 网络详解1. 前言2. ConvMLP: CNN or MLP?2.1 Convolutional Tokenizer2.2 Conv Stage2.3 Conv-MLP Stage2.4 Classifier head2.5 网络配置参数3. Visualizations4. 反思与总结5. 代码是传统 CNN 还是 MLP?大家一起来看看这个所谓的层次卷积 MLP。不可否认其在实验上很充分,考虑了下游
深度学习之图像分类(二十六)-- ConvMixer 网络详解 深度学习之图像分类(二十六)ConvMixer 网络详解目录深度学习之图像分类(二十六)ConvMixer 网络详解1. 前言2. A Simple Model: ConvMixer2.1 Patch Embedding2.2 ConvMixer Layer2.3 ConvMixer 网络结构2.4 实现代码:3. Weight Visualizations4. 反思与总结本次学习继 CNN --> Transformer --> MLP 架构之后,探讨究竟是 Transformer 和 M
深度学习之图像分类(二十五)-- S2MLPv2 网络详解 深度学习之图像分类(二十五)S2MLPv2 网络详解目录深度学习之图像分类(二十五)S2MLPv2 网络详解1. 前言2. S2MLPv22.1 S2MLPv2 Block2.2 Spatial-shift 与感受野反思3. 总结4. 代码经过 S2MLP 和 Vision Permutator 的沉淀,为此本节我们便来学习学习 S2MLPv2 的基本思想。1. 前言S2MLPv2 依是百度提出的用于视觉的空间位移 MLP 架构,其作者以及顺序与 S2MLP 一模一样,其论文为 S2-MLPv2
深度学习之图像分类(二十四)-- Vision Permutator 网络详解 深度学习之图像分类(二十四)Vision Permutator 网络详解目录深度学习之图像分类(二十四)Vision Permutator 网络详解1. 前言2. ViP 网络结构3. Permutators3.1 Permute-MLP 结构3.2 特征融合3.3 分支分析4. 总结5. 代码为了承接前文 S2MLP 以及之后的 S2MLPv2,本章节学习 Vision Permutator 网络。1. 前言ViP (Vision Permutator) 是新加坡国立南开等机构联合提出的新型
深度学习之图像分类(二十三)-- S2MLP网络详解 深度学习之图像分类(二十三)S2MLP网络详解目录深度学习之图像分类(二十三)S2MLP网络详解1. 前言2. S2MLP 网络结构3. S2MLP Block3.1 Block 结构3.2 Spatial-shift 操作5. 总结6. 代码在上一讲 AS-MLP 中,我们发现该工作和百度的 S2MLP 接近,为此本节我们便来学习学习 S2MLP 的基本思想,其想将图像的局部性融入纯 MLP 结构中去。1. 前言S2MLP 是百度提出的用于视觉的空间位移 MLP 架构,论文为 S2 -MLP
深度学习之图像分类(二十二)-- AS-MLP网络详解 深度学习之图像分类(二十一)AS-MLP网络详解目录深度学习之图像分类(二十一)AS-MLP网络详解1. 前言2. AS-MLP 网络结构3. AS-MLP Block3.1 Block 结构3.2 Axis Shift3.2.1 感受野分析3.2.2 并行串行分析3.2.3 padding 分析3.3 额外补充4. AS-MLP 与下游任务5. 总结6. 代码在上一讲 MLP-Mixer 最后,我提出了几个问题: MLP-Mixer 是否可以为分割、识别等下游任务提供太大的帮助呢?MLP-Mixer
深度学习之图像分类(二十一)-- MLP-Mixer网络详解 深度学习之图像分类(二十一)MLP-Mixer网络详解目录深度学习之图像分类(二十一)MLP-Mixer网络详解1. 前言2. MLP-Mixer 网络结构3. 总结4. 代码继 Transformer 之后,我们开启了一个新篇章,即无关卷积和注意力机制的最原始形态,全连接网络。在本章中我们学习全连接构成的 MLP-Mixer。(仔细发现,这个团队其实就是 ViT 团队…),作为一种“开创性”的工作,挖了很多很多的新坑,也引发了后续一系列工作。也许之后是 CNN、Transformer、MLP 三分天下
深度学习之目标检测(十一)--DETR详解 深度学习之图像分类(十一)DETR详解深度学习之目标检测(十一)-- DETR详解深度学习之图像分类(十一)DETR详解1. 前言2. DETR 框架2.1 CNN Backbone2.2 Transformer Encoder2.3 Transformer Decoder2.4 FFN3. 二分图匹配和损失函数4. 代码5. 总结继 Transformer 应用于图像分类后,本章学习 Transformer 应用于图像目标检测的开山之作 – DEtection TRansformer,其大大简化了目标
深度学习之图像分类(二十)-- Transformer in Transformer(TNT)网络详解 深度学习之图像分类(二十)Transformer in Transformer(TNT)网络详解目录深度学习之图像分类(二十)Transformer in Transformer(TNT)网络详解1. 前言2. TNT Block3. Position encoding4. 复杂度计算分析5. 可视化结果6. 代码本节学习 Transformer 嵌入 Transformer 的融合网络 TNT,思想自然,源于华为,值得一看。1. 前言Transformer in Transformer(TNT)
深度学习之图像分类(十九)-- Bottleneck Transformer(BoTNet)网络详解 深度学习之图像分类(十九)Bottleneck Transformer(BoTNet)网络详解目录深度学习之图像分类(十九)Bottleneck Transformer(BoTNet)网络详解1. 前言2. Multi-Head Self-Attention3. Bottleneck Transformer4. BoTNet 网络结构5. 代码上节有讲 ViT 结构。本节学习 CNN 与 Attention 的融合网络 BoTNet,即 Bottleneck Transformer。1. 前言Bo
深度学习之图像分类(十八)-- Vision Transformer(ViT)网络详解 深度学习之图像分类(十八)Vision Transformer(ViT)网络详解目录深度学习之图像分类(十八)Vision Transformer(ViT)网络详解1. 前言2. ViT 模型架构2.1 Embedding 层2.2 Transformer Encoder 层2.3 MLP Head 层2.4 ViT B/162.5 ViT 模型参数3. Hybrid 混合模型4. 代码上节有讲 Transformer 中的 Self-Attention 结构。本节学习 Vision Transform
深度学习之图像分类(十七)-- Transformer中Self-Attention以及Multi-Head Attention详解 深度学习之图像分类(十七)Transformer中Self-Attention以及Multi-Head Attention详解目录深度学习之图像分类(十七)Transformer中Self-Attention以及Multi-Head Attention详解1. 前言2. Self-Attention3. Multi-head Self-Attention3. Positional Encoding终于来到了 Transformer,从 2013 年分类网络学习到如今最火的 Transformer,真的不
深度学习之图像分类(十六)-- EfficientNetV2 网络结构 深度学习之图像分类(十六)EfficientNetV1 网络结构目录深度学习之图像分类(十六)EfficientNetV1 网络结构1. 前言2. 从 EfficientNetV1 到 EfficientNetV23. EfficientNetV2 网络框架4. 渐进式学习策略5. 代码本节学习 EfficientNetV2 网络结构。学习视频源于 Bilibili,博客参考 EfficientNetV2网络详解。1. 前言EfficientNetV2 是 2021 年 4 月发表于 CVPR 的
深度学习之图像分类(十五)-- EfficientNetV1 网络结构 深度学习之图像分类(十五)EfficientNetV1 网络结构目录深度学习之图像分类(十五)EfficientNetV1 网络结构1. 前言2. 宽度,深度以及分辨率3. EfficientNetV1 网络结构4. 代码本节学习 EfficientNetV1 网络结构。学习视频源于 Bilibili。参考博客太阳花的小绿豆: EfficientNet网络详解.1. 前言EfficientNetV1 是由Google团队在 2019 年提出的,其原始论文为 EfficientNet: Rethin
深度学习之图像分类(十四)--ShuffleNetV2 网络结构 深度学习之图像分类(十四)ShuffleNetV2 网络结构目录深度学习之图像分类(十四)ShuffleNetV2 网络结构1. 前言2. Several Practical Guidelines for Efficient Network Architecture Design2.1 Equal channel width minimizes memory access cost (MAC).2.2 Excessive group convolution increases MAC.2.3 Networ