![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PaperReading
文章平均质量分 83
paper reading
harry_tea
这个作者很懒,什么都没留下…
展开
-
DETR论文解读
DETR的一个创新是端到端的目标检测,它能够将目标检测看做成集合预测问题,而不需要像之前的目标检测算法需要anchor或者nms等,总之就是一个将CNN和transformer结合的一个新颖的目标检测框架,改变预测头还可以进行分割等任务。原创 2023-03-15 22:06:48 · 318 阅读 · 0 评论 -
Diffusion model(三): 公式结论
这一节主要总结之前文章的公式结论。原创 2023-02-15 09:19:55 · 636 阅读 · 0 评论 -
Diffusion model(二): 训练推导详解
接上文1. 最小化负对数似然与变分下界在弄懂diffusion model前向和反向过程之后,最后我们需要了解其训练推导过程,即用什么loss以及为什么。在diffusion的反向过程中,根据(3)(3)(3)式我们需要预测μθ(xt,t),Σθ(xt,t)\mu_{\theta}(x_{t}, t), \Sigma_{\theta}(x_{t}, t)μθ(xt,t),Σθ(xt,t),如何得到一个合理的均值和方差?类似于VAE,在对真实数据分布情况下,最大化模型预测分布的对数似然,即优化x0∼q原创 2023-01-08 18:39:00 · 1634 阅读 · 1 评论 -
Diffusion model(一): 公式推导详解
首先附上几个大佬的讲解这篇博客借鉴了上述博客和视频,同时加上个人的理解整合了一下,整个推导过程,希望能使每个人都看懂结合之前讲过的VAE和GAN模型,Diffusion Model和他们的区别就是latent code和原图是同尺寸大小的。如下图所示,Diffusion Model分为前向过程和反向过程,前向过程将输入图片x0变为纯高斯噪声xT(就是一个不断加噪的过程),反向过程就是将噪声xT还原为图片x0的过程(就是一个不断去噪的过程)原创 2023-01-01 11:36:49 · 4368 阅读 · 1 评论 -
GAN的原理
文章目录一、GAN基本介绍二、数学分析1. 生成器G2. 判别器D(1) 求D-max(2) 求G-min三、训练过程一、GAN基本介绍GAN是一个生成网络,他有两个网络G和DGenerator:生成图片的网络,他可以接受一个随机噪声,这里我们一般把噪声设为标准高斯分布(当然也可以是其他的噪声分布),z~N(0, 1)z~N(0, ~~1)z~N(0, 1),让zzz通过生成网络得到G(z)G(z)G(z),G(z)G(z)G(z)其实就是一幅图片Dis原创 2021-10-04 17:04:56 · 4772 阅读 · 1 评论 -
CGAN实现过程
本文目录一、原理二、参数初始化1. G的输入2. D的输入3. 模型参数初始化4. 测试噪声三、执行过程四、测试本文用MNIST数据集进行训练,并用图解的方法展示了CGAN与GAN中输入的区别,帮助理解CGAN的运行过程一、原理如下图所示,我们在输入噪声z时,额外加上一个限制条件condition,z和c通过生成器G得到生成的图片二、参数初始化有了上面的原理解释,我们就可以来初始化我们的参数了,大致可以看出我们有如下几个参数:噪声z,条件c,真实图片x,生成器和判别器的初始化参数G的输入原创 2021-10-23 11:25:14 · 1499 阅读 · 1 评论 -
Transformer是如何执行attention的?
在微信公众号上看到过一篇文章:https://mp.weixin.qq.com/s/pEGAc5Q6EDbIc7ysFC1WmA,这篇文章详细的介绍了Transformer的attention是如何执行的,这里我进行了总结,然后将transformer中的attention以及non-local中的attention进行了比较...原创 2022-01-12 21:41:20 · 315 阅读 · 0 评论 -
Non-local Neural Networks
原文地址:https://arxiv.org/pdf/1711.07971.pdf代码地址:https://github.com/facebookresearch/video-nonlocal-netPyTorch实现:https://github.com/AlexHex7/Non-local_pytorch原理原理有点类似于Transformer的self-attention,如图所示,我们输入的维度为HWCHWCHWC,通过1*1的卷积我们得到θ\thetaθ的维度为HWC2HW\frac{C}原创 2022-01-12 21:24:32 · 406 阅读 · 0 评论 -
关于ViT中pos embed的可视化
在ViT中有一个position embedding部分,为什么要有这一部分呢?在NLP中,不同词转化为Token之后有一个位置编码的模块,这是因为不同词汇之间是有顺序的,但是在视觉领域,图像与图像之间是没有顺序的,ViT将每一幅图划分为一个个patch,如下图所示,每一个patch就对应于NLP中的一个Token,而且从图中也可以直观的感受到每一个patch都是有位置的,所以在每一个特征维度上都加入了一个position embedding模块,最后我们可视化一下Google预训练后position e原创 2022-01-10 10:13:12 · 4007 阅读 · 2 评论 -
Swin Transformer详解
Swin Transformer详解一、整体架构二、拆解Swin Transformer1. Patch Partition & Linear Embedding2. Swin Transformer Block(1)第一个BlockW-MSA模块window partitionwindow attentionMLP(2)第二个BlockSW-MSA模块3. Patch Merging三、相对位置偏置论文地址:https://arxiv.org/pdf/2103.14030.pdf代码地址:ht原创 2021-11-27 16:17:54 · 13447 阅读 · 9 评论 -
Deep Learning on Image Denosing: An Overview
本文目录Deep Learning on Image Denosing: An OverviewAbstract1 Introduction2 Fundamental frameworks of deep learning methods for image denoising2.1 Machine learning methods for image denoising2.2 Neural networks for image denoising2.3 CNNs for image denoising2.原创 2021-11-10 15:39:31 · 1237 阅读 · 0 评论