热血厨师长-CSDN博客

DDIM可以看作是DDPM的更通用的形式，或者说DDIM是DDPM的一种子集，它不利用上一个step的信息就可以求出任意一个step的结果，可以做到跳步生成，从而实现采样的加速过程。由于DDIM的改进主要是在采样阶段，所以可以直接将DDPM训好的模型用DDIM采样，所以大家普遍都会认为DDIM是个采样算法，实际上它的推导的意义更加重大。当然这样的跳步生成也是有代价的，会有一些损失，从论文结果上看，DDIM可以用非常少量的精度损失作为代价，换取10倍至50倍的速度提升。这个对实际体验和落地有很大帮助。

2024-04-17 17:08:29 2036 2

原创狗都能看懂的Deblurring via Stochastic Refinement论文详解

把Diffusion Model迁移到了去模糊任务上，而且提出了Predict and Refine的思路，有效降低了参数量和计算量，对扩散模型的落地和部署有比较大的意义。

2024-04-11 11:28:31 1519 1

原创狗都能看懂的SR3（Image Super-Resolution via Iterative Refinement）论文详解

第一篇利用Diffusion Model做超分辨率重建的论文，非常新颖的思路

2024-04-10 11:06:09 7212 12

原创狗都能看懂的DDPM论文详解

DDPM的推导笔记，更深刻理解stable diffusion，从不同角度去学习去噪网络

2024-04-07 11:49:03 17649 25

原创狗都能看懂的C++二级指针/悬挂指针的原理和应用

C++二级指针的应用，避免悬挂指针的问题。

2024-04-02 15:53:44 1728 1

原创狗都能看懂的VAE笔记

终于把VAE搞懂了

2023-03-24 15:47:10 1302

原创狗都会用的余弦退火（CosineAnnealingLR）学习率调节算法讲解

Loss NaN？分类准确率不高？目标检测Map低？语义分割Miou低？快来试试CosineAnnealingLR吧

2022-11-09 11:41:35 41159 9

原创狗都能看懂的Meta-SGD原理讲解和代码实现

Meta-SGD：元学习上的又一好文

2022-10-09 16:02:46 3168 12

原创狗都能看懂的Pytorch MAML代码详解

maml：一种神奇的元学习训练方式

2022-08-02 18:23:12 13450 56

原创狗都能看懂的CenterNet讲解及代码复现

狗都能看懂的CenterNet讲解及代码复现

2022-06-23 09:38:47 15876 17

原创狗都能看懂的Vision Transformer的讲解和代码实现

狗都能看懂的Vision Transformer和代码复现

2022-01-24 14:46:33 61638 47

原创狗都能看懂的Self-Attention讲解

一文看懂self-attention

2022-01-13 17:31:25 26425 32

原创狗都能看懂的变化检测网络Siam-NestedUNet讲解——解决工业检测的痛点

1、问题介绍工业检测如今深度学习的发展如火如荼，各类神奇的技术如人脸识别、换脸技术啥的，似乎什么问题都只需要Deep Learning一下就可以解决了。但这都是属于民用级别的技术，而真正想要在实际业务中落地，更多的是要渗透到工业中去。常见的工业检测有如下特点：良品多，次品少。如果一个工厂生产的大部分都是坏品，那这个工厂就离倒闭不远了。而恰恰深度学习则需要大量的坏品数据。产品换批次，产线更新。经常一换产品，之前优化过的模型就没办法再用了。就针对这两个问题，目前学术界较为成熟的目标检测、图像分割

2021-11-26 12:04:46 15016 58

原创 U-Net详解：为什么它适合做医学图像分割？（基于tf-Kersa复现代码）

1、U-netU-Net是一篇基本结构非常好的论文，主要是针对生物医学图片的分割。这种“对称”的结构也是神经网络中比较少见的，但如果把整个网络拉直，这样就和其他语义分割网络类似了。2、特点介绍首先，我们先来看一下U-Net的整体结构，可以看到，它并不是完全对称的。UNet原文中提到，输入图像是512x512大小的，那为什么图中第一层的宽高却是572呢？这样做有什么好处？Over-tile策略Unet使用一种称为overlap-tile的的策略，使得任意大小输入的图片都可以获得一个无缝分割。ove

2021-08-15 12:12:05 4834

原创 SegNet——论文笔记

1、什么是语义分割（semantic segmentation）？图像语义分割，简而言之就是对一张图片上的所有像素点进行分类，将所有属于同一类的物体标记为同一像素点。SegNet基于FCN，修改VGG-16网络得到的语义分割网络。2、SegNet（A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation）SegNet 有一个编码器网络和一个相应的解码器网络，然后是最终的逐像素分类层。编码器在编码器处，执

2021-07-04 11:23:07 2536

原创 FCN——语义分割的开山鼻祖（基于tf-Kersa复现代码）

1、什么是语义分割（semantic segmentation）？图像语义分割，简而言之就是对一张图片上的所有像素点进行分类，将所有属于同一类的物体标记为同一像素点。而今天要来介绍的则是第一个用卷积神经网络来做语义分割的方法——FCN。2、FCN（Fully Convolutional Networks for Semantic Segmentation）常见的卷积神经网络在多次卷积之后会接上若几个全连接层，将卷积和下采样产生的feature map映射成为一个固定长度的特征向量。一般的CNN结构

2021-06-27 11:21:06 2994 2

原创 YOLOv3详解：从零开始搭建YOLOv3网络

因为YOLO系列有不同版本，分为v1，v2，v3，v4四个版本，从论文上分析需要从头开始，本文从实战入手，分析YOLOv3的原理。代码地址：https://github.com/Runist/YOLOv31、YOLOv3网络结构骨干网络（backbone）——特征提取YOLOv2的backbone采用的是DarkNet19 ，而YOLOv3采用的是DarkNet53。DarkNet53中无池化层，全连接层，特征图的缩小是通过增加卷积核的步长实现的。DarkNet53的每一个卷积部分使用了特有

2021-02-15 14:31:02 13681 1

原创 EfficientNet解读：神经网络的复合缩放方法（基于tf-Kersa复现代码）

论文：https://arxiv.org/pdf/1905.11946.pdf代码：https://github.com/qubvel/efficientnet1、介绍EfficientNet这篇论文在发布之初就引起了广泛关注，原因是因为它展示出的结果将现有的网络全部秒杀了，并且在准确率高出一截的情况下，参数量还少，在ImageNet上屠榜。看到这让人叹为观止的结果，很多人会认为这篇论文应该是提出了全新的结构，才能做到又快又好。其实并不是这样，作者独辟蹊径，从一个之前完全没有人注意的角度：量化三个

2021-02-10 21:04:42 3770

原创 DropBlock: 卷积层的正则化方法及复现代码

论文：https://arxiv.org/pdf/1810.12890.pdf1、什么是Dropout？我相信各位一定了解过Dropout，所谓Dropout就是提高神经网络泛化性一种方法，可以有效减轻过拟合。为什么它有效呢？从下图分析：一个标准的神经网络如图(a)所示，由于训练数据（假设为人脸数据）的局限性，使得神经网络很依赖于某一个神经元，而其他神经元相当于没有起作用，网络每次都只通过眼睛来判断是不是个人。如果此时直接拿一个全新的测试数据集让这个网络进行识别，很可能因为图片中眼睛被遮挡而得出错误

2021-02-09 12:27:13 3062 2

原创 DenseNet详解及Keras复现代码

代码地址：https://github.com/liuzhuang13/DenseNet论文地址：https://arxiv.org/pdf/1608.06993.pdf1、DenseNet随着卷积神经网络变得越来越深，一个新的问题出现了：当输入或梯度信息在经过很多层的传递之后，在到达网络的最后（或开始）可能会消失或者“被冲刷掉”（wash out）。DenseNet（Dense Convolutional Network）主要还是和ResNet及Inception网络做对比，思想上有借鉴，但却是不一

2021-02-08 12:10:29 3579 6

原创 ResNet详解：ResNet到底在解决什么问题？

计算机视觉的圣经ResNet！

2021-02-07 11:27:07 9551 2

空空如也

空空如也