木卯_THU-CSDN博客

原创光流估计（一）-- 仿射变换

图像仿射变换矩阵如何靠六个参数确定

2021-12-13 14:54:04 5064 1

原创深度学习之图像分类（三十一）-- CycleMLP网络详解

深度学习之图像分类（三十一）CycleMLP网络详解目录深度学习之图像分类（三十一）CycleMLP网络详解1. 前言2. CycleMLP2.1 CycleMLP Block2.2 整体网络结构3. 下游任务实验4. 消融实验4. 总结与反思5. 代码这应该是目前最后学习的一篇 MLP 架构的论文了，CycleMLP 其实和 AS-MLP 的思想基本一致，让我们来详细看看。1. 前言本此学习香港大学&商汤联合提出的 CycleMLP。这也是我看到的除 AS-MLP 外将纯 MLP 做成

2021-10-21 16:57:51 3207 4

原创深度学习之图像分类（三十）-- Hire-MLP网络详解

深度学习之图像分类（三十）Hire-MLP网络详解目录深度学习之图像分类（三十）Hire-MLP网络详解1. 前言2. Hire-MLP2.1 Hire-MLP Block2.1.1 Inner-Region2.1.2 Cross-Region2.1.3 特征融合2.1.4 HireMLP 和 ViP，AS-MLP 的区别？2.2 整体网络结构3. 消融实验4. 总结与反思5. 代码一晃都学习了三十个网络了，时间过得真快。本次学习华为提出的 Hire-MLP，依然是通过旋转特征图，将不同位置的特征对齐到

2021-10-20 18:48:31 1697 3

原创深度学习之图像分类（二十九）-- Sparse-MLP网络详解

深度学习之图像分类（二十九）Sparse-MLP网络详解目录深度学习之图像分类（二十九）Sparse-MLP网络详解1. 前言2. sMLPNet2.1 整体网络结构2.2 Token-mixing MLP2.3 计算复杂度3. 消融实验4. 反思与总结5. 代码本文再次讲述一篇新的 Sparse-MLP 工作，其的 Sparse 主要描述在感受野层面，与 MLP-Mixer 的全局感受野相比，本网络的感受野是轴向的，所以是稀疏的。本文可以看作是 ConvMLP 和 ViP 的结合，但是其发布时间早 C

2021-10-19 16:38:31 3663 1

原创深度学习之图像分类（二十八）-- Sparse-MLP(MoE)网络详解

深度学习之图像分类（二十八）Sparse-MLP(MoE)网络详解目录深度学习之图像分类（二十八）Sparse-MLP(MoE)网络详解1. 前言2. Mixture of Experts2.1 背景2.2 MoE2.3 损失函数2.4 Re-represent Layers3. 消融实验4. 反思与总结本工作向 Vision MLP 中引入 Mixture-of-Experts (MoE), 但是发现其 MoE 使用方法和 Scaling Vision with Sparse Mixture of

2021-10-18 14:54:51 3832

原创深度学习之图像分类（二十七）-- ConvMLP 网络详解

深度学习之图像分类（二十七）ConvMLP 网络详解目录深度学习之图像分类（二十七）ConvMLP 网络详解1. 前言2. ConvMLP: CNN or MLP?2.1 Convolutional Tokenizer2.2 Conv Stage2.3 Conv-MLP Stage2.4 Classifier head2.5 网络配置参数3. Visualizations4. 反思与总结5. 代码是传统 CNN 还是 MLP？大家一起来看看这个所谓的层次卷积 MLP。不可否认其在实验上很充分，考虑了下游

2021-10-13 13:33:06 3133 3

原创深度学习之图像分类（二十六）-- ConvMixer 网络详解

深度学习之图像分类（二十六）ConvMixer 网络详解目录深度学习之图像分类（二十六）ConvMixer 网络详解1. 前言2. A Simple Model: ConvMixer2.1 Patch Embedding2.2 ConvMixer Layer2.3 ConvMixer 网络结构2.4 实现代码：3. Weight Visualizations4. 反思与总结本次学习继 CNN --> Transformer --> MLP 架构之后，探讨究竟是 Transformer 和 M

2021-10-08 17:00:07 6161 7

原创深度学习之图像分类（二十五）-- S2MLPv2 网络详解

深度学习之图像分类（二十五）S2MLPv2 网络详解目录深度学习之图像分类（二十五）S2MLPv2 网络详解1. 前言2. S2MLPv22.1 S2MLPv2 Block2.2 Spatial-shift 与感受野反思3. 总结4. 代码经过 S2MLP 和 Vision Permutator 的沉淀，为此本节我们便来学习学习 S2MLPv2 的基本思想。1. 前言S2MLPv2 依是百度提出的用于视觉的空间位移 MLP 架构，其作者以及顺序与 S2MLP 一模一样，其论文为 S2-MLPv2

2021-10-07 14:43:18 1417 2

原创深度学习之图像分类（二十四）-- Vision Permutator 网络详解

深度学习之图像分类（二十四）Vision Permutator 网络详解目录深度学习之图像分类（二十四）Vision Permutator 网络详解1. 前言2. ViP 网络结构3. Permutators3.1 Permute-MLP 结构3.2 特征融合3.3 分支分析4. 总结5. 代码为了承接前文 S2MLP 以及之后的 S2MLPv2，本章节学习 Vision Permutator 网络。1. 前言ViP (Vision Permutator) 是新加坡国立南开等机构联合提出的新型

2021-10-05 13:04:49 2389 1

原创深度学习之图像分类（二十三）-- S2MLP网络详解

深度学习之图像分类（二十三）S2MLP网络详解目录深度学习之图像分类（二十三）S2MLP网络详解1. 前言2. S2MLP 网络结构3. S2MLP Block3.1 Block 结构3.2 Spatial-shift 操作5. 总结6. 代码在上一讲 AS-MLP 中，我们发现该工作和百度的 S2MLP 接近，为此本节我们便来学习学习 S2MLP 的基本思想，其想将图像的局部性融入纯 MLP 结构中去。1. 前言S2MLP 是百度提出的用于视觉的空间位移 MLP 架构，论文为 S2 -MLP

2021-10-03 16:35:30 1892

原创深度学习之图像分类（二十二）-- AS-MLP网络详解

深度学习之图像分类（二十一）AS-MLP网络详解目录深度学习之图像分类（二十一）AS-MLP网络详解1. 前言2. AS-MLP 网络结构3. AS-MLP Block3.1 Block 结构3.2 Axis Shift3.2.1 感受野分析3.2.2 并行串行分析3.2.3 padding 分析3.3 额外补充4. AS-MLP 与下游任务5. 总结6. 代码在上一讲 MLP-Mixer 最后，我提出了几个问题： MLP-Mixer 是否可以为分割、识别等下游任务提供太大的帮助呢？MLP-Mixer

2021-09-30 12:50:57 2836 14

原创深度学习之图像分类（二十一）-- MLP-Mixer网络详解

深度学习之图像分类（二十一）MLP-Mixer网络详解目录深度学习之图像分类（二十一）MLP-Mixer网络详解1. 前言2. MLP-Mixer 网络结构3. 总结4. 代码继 Transformer 之后，我们开启了一个新篇章，即无关卷积和注意力机制的最原始形态，全连接网络。在本章中我们学习全连接构成的 MLP-Mixer。（仔细发现，这个团队其实就是 ViT 团队…），作为一种“开创性”的工作，挖了很多很多的新坑，也引发了后续一系列工作。也许之后是 CNN、Transformer、MLP 三分天下

2021-09-28 12:48:17 11103 15

原创深度学习之目标检测（十一）--DETR详解

深度学习之图像分类（十一）DETR详解深度学习之目标检测（十一）-- DETR详解深度学习之图像分类（十一）DETR详解1. 前言2. DETR 框架2.1 CNN Backbone2.2 Transformer Encoder2.3 Transformer Decoder2.4 FFN3. 二分图匹配和损失函数4. 代码5. 总结继 Transformer 应用于图像分类后，本章学习 Transformer 应用于图像目标检测的开山之作 – DEtection TRansformer，其大大简化了目标

2021-09-26 19:59:43 94799 33

原创深度学习之图像分类（二十）-- Transformer in Transformer(TNT)网络详解

深度学习之图像分类（二十）Transformer in Transformer(TNT)网络详解目录深度学习之图像分类（二十）Transformer in Transformer(TNT)网络详解1. 前言2. TNT Block3. Position encoding4. 复杂度计算分析5. 可视化结果6. 代码本节学习 Transformer 嵌入 Transformer 的融合网络 TNT，思想自然，源于华为，值得一看。1. 前言Transformer in Transformer(TNT)

2021-09-16 16:40:11 4050 1

原创深度学习之图像分类（十九）-- Bottleneck Transformer(BoTNet)网络详解

深度学习之图像分类（十九）Bottleneck Transformer(BoTNet)网络详解目录深度学习之图像分类（十九）Bottleneck Transformer(BoTNet)网络详解1. 前言2. Multi-Head Self-Attention3. Bottleneck Transformer4. BoTNet 网络结构5. 代码上节有讲 ViT 结构。本节学习 CNN 与 Attention 的融合网络 BoTNet，即 Bottleneck Transformer。1. 前言Bo

2021-09-10 11:47:57 11499 43

原创深度学习之图像分类（十八）-- Vision Transformer(ViT)网络详解

深度学习之图像分类（十八）Vision Transformer(ViT)网络详解目录深度学习之图像分类（十八）Vision Transformer(ViT)网络详解1. 前言2. ViT 模型架构2.1 Embedding 层2.2 Transformer Encoder 层2.3 MLP Head 层2.4 ViT B/162.5 ViT 模型参数3. Hybrid 混合模型4. 代码上节有讲 Transformer 中的 Self-Attention 结构。本节学习 Vision Transform

2021-09-09 12:30:52 34354 18

原创深度学习之图像分类（十七）-- Transformer中Self-Attention以及Multi-Head Attention详解

深度学习之图像分类（十七）Transformer中Self-Attention以及Multi-Head Attention详解目录深度学习之图像分类（十七）Transformer中Self-Attention以及Multi-Head Attention详解1. 前言2. Self-Attention3. Multi-head Self-Attention3. Positional Encoding终于来到了 Transformer，从 2013 年分类网络学习到如今最火的 Transformer，真的不

2021-09-08 22:18:25 3696 3

原创深度学习之图像分类（十六）-- EfficientNetV2 网络结构

深度学习之图像分类（十六）EfficientNetV1 网络结构目录深度学习之图像分类（十六）EfficientNetV1 网络结构1. 前言2. 从 EfficientNetV1 到 EfficientNetV23. EfficientNetV2 网络框架4. 渐进式学习策略5. 代码本节学习 EfficientNetV2 网络结构。学习视频源于 Bilibili，博客参考 EfficientNetV2网络详解。1. 前言EfficientNetV2 是 2021 年 4 月发表于 CVPR 的

2021-09-07 16:30:29 11753 13

原创深度学习之图像分类（十五）-- EfficientNetV1 网络结构

深度学习之图像分类（十五）EfficientNetV1 网络结构目录深度学习之图像分类（十五）EfficientNetV1 网络结构1. 前言2. 宽度，深度以及分辨率3. EfficientNetV1 网络结构4. 代码本节学习 EfficientNetV1 网络结构。学习视频源于 Bilibili。参考博客太阳花的小绿豆: EfficientNet网络详解.1. 前言EfficientNetV1 是由Google团队在 2019 年提出的，其原始论文为 EfficientNet: Rethin

2021-09-05 16:36:37 5004 4

原创深度学习之图像分类（十四）--ShuffleNetV2 网络结构

深度学习之图像分类（十四）ShuffleNetV2 网络结构目录深度学习之图像分类（十四）ShuffleNetV2 网络结构1. 前言2. Several Practical Guidelines for Efficient Network Architecture Design2.1 Equal channel width minimizes memory access cost (MAC).2.2 Excessive group convolution increases MAC.2.3 Networ

2021-09-04 13:56:19 14208 2

原创深度学习之图像分类（十三）--ShuffleNetV1 网络结构

深度学习之图像分类（十三）ShuffleNetV1 网络结构目录深度学习之图像分类（十三）ShuffleNetV1 网络结构1. 前言2. Channel Shuffle3. ShuffleNetV1 网络结构4. 代码本节学习 ShuffleNetV1 网络结构。学习视频源于 Bilibili。1. 前言ShuffleNetV1 是由国产旷视科技团队在 2018 年提出的，其原始论文为 ShuffleNet: An Extremely Efficient Convolutional Neural

2021-09-04 13:55:33 2414 1

原创深度学习之图像分类（十二）--MobileNetV3 网络结构

深度学习之图像分类（十二）MobileNetV3 网络结构目录深度学习之图像分类（十二）MobileNetV3 网络结构1. 前言2. 更新 BlocK (bneck)3. 重新设计激活函数4. 重新设计耗时层结构5. MobileNetV3 网络结构6. NAS7. 代码本节学习 MobileNetV3 网络结构。学习视频源于 Bilibili。1. 前言MobileNetV3 是由 google 团队在 2019 年提出的，其原始论文为 Searching for MobileNetV3。Mo

2021-09-03 15:50:57 30820 6

原创深度学习之图像分类（十一）--MobileNetV2 网络结构

深度学习之图像分类（十一）MobileNetV2 网络结构目录深度学习之图像分类（十一）MobileNetV2 网络结构1. 前言2. Inverted Residuals 倒残差结构3. Linear Bottlenecks4. MobileNetV2 网络结构5. 代码本节学习 MobileNetV2 网络结构。学习视频源于 Bilibili，部分参考描述源自知乎详解MobileNetV2。1. 前言MobileNetV2 是由google团队在 2018 年提出的，相比于 MobileNe

2021-09-03 12:18:22 37221 6

原创深度学习之图像分类（十）--MobileNetV1 网络结构

深度学习之图像分类（十）MobileNetV1 网络结构目录深度学习之图像分类（十）MobileNetV1 网络结构1. 前言2. DW 卷积3. Depthwise Separable Conv 深度可分卷积操作4. MobileNetV1 网络结构5. 代码本节学习 MobileNetV1 网络结构。学习视频源于 Bilibili。1. 前言在传统卷积神经网络中，内存需求大，运算量打，导致无法在移动设备以及嵌入式设备上运行，例如在手机上等等。VGG16 大概有 490M 模型参数，ResNet

2021-09-03 12:17:52 4379 2

原创深度学习之图像分类（九）--ResNeXt 网络结构

深度学习之图像分类（九）ResNeXt 网络结构目录深度学习之图像分类（九）ResNeXt 网络结构1. 前言2. 组卷积3. ResNeXt block 分析4. 代码本节学习 ResNeXt 网络结构，以及组卷积原理。学习视频源于 Bilibili。1. 前言在提出 ResNet 网络之后，很多模型都会拿 ResNet 网络作为基准和比对。本章讲述的 ResNeXt 网络可以被视作对 ResNet 的小幅升级，其实不难发现其也参考了 Inception 的思想。其原始论文为 Aggregate

2021-09-02 11:36:34 2933 3

原创深度学习之图像分类（八）--Batch Normalization

深度学习之图像分类（八）Batch Normalization目录深度学习之图像分类（八）Batch Normalization1. 前言2. BN 原理3. BN 实际使用4. BN 的变种5. 使用 BN 时的注意事项6. 为什么 BN 能 Work？本节学习 Batch Normalization，学习视频源于 Bilibili，此章节参考博客 Batch Normalization详解以及pytorch实验，以及知乎回答。1. 前言Batch Normalization 是 Google

2021-08-31 18:17:46 2233 1

原创深度学习之图像分类（七）--ResNet网络结构

深度学习之图像分类（七）ResNet 网络与 Batch Normalization目录深度学习之图像分类（七）ResNet 网络与 Batch Normalization1. 前言2. Residual3. 网络配置4. 代码本节学习ResNet网络结构，以及迁移学习入门，学习视频源于 Bilibili。1. 前言ResNet 是在 2015 年由微软实验室提出来的，斩获当年 ImageNet 竞赛中分类任务第一名，目标检测任务第一名，获得 COCO 数据集中目标检测第一名，图像分割第一名。总结

2021-08-31 18:10:09 5656 1

原创深度学习之图像分类（六）--Inception进化史

深度学习之图像分类（六）Inception进化史目录深度学习之图像分类（六）Inception进化史1. Inception V12. Inception V22.1 卷积分解（Factorizing Convolutions）2.2 降低特征图大小3. Inception V34. Inception V4本节学习Inception 进化历史，感受 Inception 进化中使用的思想，其中学习描述部分参考大话CNN经典模型：GoogLeNet（从Inception v1到v4的演进)。1. In

2021-08-31 15:01:45 1037

原创深度学习之图像分类（五）--GoogLeNet网络结构

深度学习之图像分类（五）GoogLeNet网络结构目录深度学习之图像分类（五）GoogLeNet网络结构1. 前言2. Inception 结构3. 辅助分类器4. 代码本节学习 GoogLeNet 网络结构，学习视频源于 Bilibili，部分描述参考大话CNN经典模型：GoogLeNet（从Inception v1到v4的演进)。1. 前言GoogLeNet 是 2014 年由 Google 团队提出的，斩获了当年 ImageNet 竞赛中 Classification Task 的第一名。

2021-08-31 14:56:20 3750 1

原创深度学习之图像分类（四）--VGGNet网络结构及感受野计算

深度学习之图像分类（四）VGGNet网络结构及感受野计算目录深度学习之图像分类（四）VGGNet网络结构及感受野计算1. 前言2. CNN感受野3. VGG网络结构4. 代码本节学习VGGNet网络结构以及感受野计算，学习视频源于 Bilibili，部分描述参考知乎专栏。1. 前言VGGNet 是 2014 年牛津大学著名研究组 VGG(Visual Geometry Group) 提出，斩获该年 ImageNet 竞赛中 Localization Task 第一名和 Classificatio

2021-08-31 11:37:49 1240 1

原创深度学习之图像分类（三）--AlexNet网络结构

深度学习之图像分类（三）-- AlexNet网络结构深度学习之图像分类（三）AlexNet网络结构1. 前言2. 网络结构3. 其他细节3.1 Local Response Normalization (局部响应归一化)3.2 Overlapping Pooling (覆盖的池化操作)3.3 Data Augmentation (数据增强)深度学习之图像分类（三）AlexNet网络结构从本节开始，将逐个讲述图像分类模型的发展历程，首个就是 AlexNet，学习视频源于 Bilibili。1. 前言

2021-08-28 12:07:27 1416 2

原创深度学习之图像分类（二）--pytorch查看中间层特征矩阵以及卷积核参数

深度学习之图像分类（二）-- pytorch查看中间层特征矩阵以及卷积核参数深度学习之图像分类（二）pytorch查看中间层特征矩阵以及卷积核参数1. 可视化 feature maps2. 可视化 kernel weights深度学习之图像分类（二）pytorch查看中间层特征矩阵以及卷积核参数在开始学习深度学习图像分类模型Backbone理论知识之前，先看看如何在 pytorch 框架中查看中间层特征矩阵以及卷积核参数，学习视频源于 Bilibili。耳听为虚，眼见为实！可视化 feature ma

2021-08-26 20:31:40 3254 5

原创深度学习之图像分类（一）--分类模型的混淆矩阵

深度学习之图像分类（一）-- 分类模型的混淆矩阵深度学习之图像分类（一）分类模型的混淆矩阵1. 混淆矩阵1.1 二分类混淆矩阵1.2 混淆矩阵计算实例2. 混淆矩阵代码3. 混淆矩阵用途深度学习之图像分类（一）分类模型的混淆矩阵今天开始学习深度学习图像分类模型Backbone理论知识，首先学习分类模型的混淆矩阵，学习视频源于 Bilibili。1. 混淆矩阵混淆矩阵是评判模型结果的一种指标，属于模型评估的一部分，常用语评判分类模型的优劣。图中左下角为混淆矩阵的一个示例，横坐标为 True Labe

2021-08-26 12:09:30 12168 3

原创深度学习之目标检测（十）--YOLO如何使用k-means获得Anchor

深度学习之目标检测（十）-- YOLO如何使用k-means获得Anchor深度学习之目标检测（十）YOLO如何使用k-means获得Anchor1. K-means 聚类算法2. YOLOv2 中的 K-means 算法3. YOLOv5 中的 K-means 算法4. 细节提醒深度学习之目标检测（十）YOLO如何使用k-means获得Anchor本章学习 YOLO 如何使用k-means获得Anchor，学习视频源于 Bilibili，参考的 CSDN 博客包括：https://blog.csd

2021-08-24 11:41:49 5121 3

原创深度学习之目标检测（九）--YOLOv3 SPP理论介绍

深度学习之目标检测（九）-- YOLOv3 SPP理论介绍深度学习之目标检测（九）YOLOv3 SPP理论介绍1. Mosaic 图像增强2. SPP 模块3. CIoU Loss3.1 IoU Loss3.2 GIoU Loss3.3 DIoU Loss3.4 CIoU Loss4. Focal Loss深度学习之目标检测（九）YOLOv3 SPP理论介绍本章学习 YOLO v3 SPP 相关理论知识，学习视频源于 Bilibili。本章节基于 ultralytics 版本的 YOLOv3 进行讲解。

2021-08-23 17:41:48 7040 5

原创深度学习之目标检测（八）--YOLO v3理论介绍

深度学习之目标检测（八）-- YOLO v3理论介绍深度学习之目标检测（八）YOLOv3理论介绍1. YOLO v31.1 YOLOv3 网络架构1.2 目标边界框预测1.3 正负样本匹配1.4 损失函数1.4.1 置信度损失1.4.2 类别损失1.4.3 定位损失深度学习之目标检测（八）YOLOv3理论介绍本章学习 YOLO v3 相关理论知识，学习视频源于 Bilibili，部分参考叙述源自知乎。1. YOLO v3YOLO v2 论文为发表于 2018 CVPR 的 YOLOv3: An

2021-08-23 14:54:42 2004 1

原创深度学习之目标检测（七）--YOLO v2理论介绍

深度学习之目标检测（七）-- YOLO v2理论介绍深度学习之目标检测（七）YOLOv2理论介绍1. YOLO v21.1 Batch Normalization1.2 High Resolution Classifier1.3 Convolutional with Anchor Boxes1.4 Dimension Clusters1.5 Direct location prediction1.6 Fine-Grained Features1.7 Multi-Scale Training2. Darkne

2021-08-22 23:18:07 938

原创深度学习之目标检测（六）--YOLO v1理论介绍

深度学习之目标检测（六）-- YOLO v1理论介绍深度学习之目标检测（六）YOLOv1理论介绍1. YOLO v11.1 论文思想1.2 损失函数1.3 YOLO v1 存在的问题深度学习之目标检测（六）YOLOv1理论介绍本章学习 YOLO v1 相关理论知识，学习视频源于 Bilibili，部分参考叙述源自知乎。1. YOLO v1YOLO v1 原始论文为发表于 2016 CVPR 的 You Only Look Once: Unified, Real-Time Object Dete

2021-08-22 16:59:15 1130 1

原创深度学习之目标检测（五）-- RetinaNet网络结构详解

深度学习之目标检测（五）-- RetinaNet网络结构详解深度学习之目标检测（五）RetinaNet网络结构详解1. RetinaNet1.1 backbone 部分1.2 预测器部分1.3 正负样本匹配1.4 损失计算2. Focal Loss2.1 Cross Entropy Loss2.2 Balanced Cross Entropy2.3 Focal Loss深度学习之目标检测（五）RetinaNet网络结构详解本章学习 FPN 相关知识，学习视频源于 Bilibili，部分参考叙述源自知乎

2021-08-17 17:48:13 35908 6

原创深度学习之目标检测（四）-- SSD算法理论

深度学习之目标检测（四）-- SSD算法理论深度学习之目标检测（四）SSD算法理论1. SSD -- 真正的实时，单阶段检测器1.1 预测特征层1.2 Default Box1.3 Predictor1.4 训练过程中正负样本选择1.5 损失计算1.6 总结深度学习之目标检测（四）SSD算法理论本章学习 FPN 相关知识，学习视频源于 Bilibili。Faster R-CNN 存在的问题：对于小目标检测效果很差个人看法：只在一个特征层上进行预测 (FPN对此进行了改善)，而这个特征层经过很多

2021-08-17 17:42:33 2407

DeepPose: Human Pose Estimation via Deep Neural Networks

空空如也