![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文精读+复现
文章平均质量分 95
1
深度不学习!!
v a932016561
展开
-
【论文精读】……ConvNeXt……(CNN和Transformer打起来了,A ConvNet for the 2020s)
论文下载地址:https://arxiv.org/pdf/2201.03545.pdf在这篇文章之前,CV领域被Transformer给刷榜了,什么Vit啊 Swim啊各种的Transformer的模型,这个作者写这篇文章 ,题目起的真的刚,20年代的卷积网络,就是想告诉你们,如今这个被Transformer占领的时代,我们CNN要重回第一。之前的Vit或者Swim什么的都是要完全抛弃CNN,并且模型出来之后也证实了,抛弃CNN之后模型精准度等直接冲到第一了。我估计CNN阵营的大佬们看了之后坐不住了,直接发原创 2022-06-13 14:22:48 · 1138 阅读 · 1 评论 -
【目标检测 论文精读 】R-CNN (Rich feature hierarchies for accurate object detection and semantic segmentation)
文章目录前言Abstract(摘要)Introduction(引言)前言今天看一下大名鼎鼎的目标检测算法 R-CNN。这个论文有很多版本,这里是论文下载地址:https://arxiv.org/pdf/1311.2524v5.pdf论文题目:Rich feature hierarchies for accurate object detection and semantic segmentationR-CNN是两阶段目标检测算法的开山鼻祖。两阶段:先从目标图片中提取候选框再对候选框进行分原创 2022-05-04 15:31:58 · 1066 阅读 · 0 评论 -
【生成对抗网络 论文泛读】……StarganV1 & StarganV2……
提出 StarGAN 网络模型,仅使用一个 G 和 D 就可以实现多个领域之间图像生成和训练。采用 mask vector 方法控制所有可用域图像标签以实现训练集之间的多领域图像转换。StarGAN 相对于基准模型, 在面部属性转移和面部表情合成的任务中有更好的效果 (具体数据请参看原论文中的实验部分)原创 2022-10-22 13:56:09 · 1044 阅读 · 1 评论 -
【生成对抗网络 论文泛读】……pix2pix & pix2pixhd……
这两篇论文放在一起说。点我下载点我下载生成器:是一个unet模型,需要 输入的图像+噪声,判别器 :是一个patchgan模型,输入 真图+输入的图 和 生成的假图+输入的图 两组,输出的结果就是,某一对是真还是假的概率,是个二分类模型。简单回顾一下unet:一个解决语义鸿沟问题的U字形模型。左边是GAN使用的编码及解码器模型,右边就是pix2pix生成器使用的unet模型,他用连接是Densenet里的connect 通道连接,而不是Resnet里的add。原创 2022-10-18 17:53:26 · 1125 阅读 · 0 评论 -
【生成对抗网络 论文泛读】……CycleGAN ……(Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial )
摘要里作者首先说了一下图像转译工作中以前的做法,就是两个数据集要像素级别的对齐,但是现实情况是,这种对齐的数据集非常难以获得,比如你要转梵高风格的画,那就没办法再找梵高画一张像素对齐的画了。所以作者提出了他的方法,就是不需要对齐图像。后面就是在介绍他模型的结构了,用的都是干涩的文字描述,这里其实看不懂也没事,看到后面的图就懂了。原创 2022-10-12 17:15:15 · 1484 阅读 · 0 评论 -
【残差网络 论文泛读】……DenseNet……(附Pytorch复现代码)
ResNet主要是解决网络退化现象而提出的模块。结构图:可以看到x输入之后有两条路可以走,右边一条路还有中间一条路 。右边的路 identity 称为恒等映射(shortcut connection & skip connection ),恒等映射 不引入额外的参数量和计算量,所以此时总的输出映射为 F ( x ) + x .设最终得到的映射为 H ( s ) ,则 F ( x ) = H ( x ) − x ,即学习的是 应有的映射与原始输入之间的差值。因此被称为残差映射(residual mappi原创 2022-06-28 12:32:58 · 1118 阅读 · 0 评论 -
【Transformer 论文精读】……Swin Transformer……(Hierarchical Vision Transformer using Shifted Windows)
论文用的是2021 8月17日的版本。Swin Transformer是ICCV 2021的最佳论文,这一篇论文是继Vit之后的Transformer在CV领域的巅峰之作。在paperwithcode上可以看到,SwinV2版本已经将coco数据集的精确度刷到了63.1%,而卷积系列还在50%+。Swin很可能引领之后的CV领域。这是基于Vit的一篇论文,可以看一下我之前的Vit阅读笔记:作者在摘要中说他提出了一个Swin Transformer的模型,可以当backbone。之前在Vit的结尾,Vit的作原创 2022-06-10 18:56:59 · 1444 阅读 · 3 评论 -
【Transformer 论文精读】……ViT……(TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)
论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE原文下载连接:https://arxiv.org/pdf/2010.11929.pdf前两天读Transformer最原始的那个论文,基于NLP方向写的,全是NLP的知识点,给我读的痛苦死了,今天这终于来了个CV方向的。论文题目前半段是 就是将图片分解成16 * 16的网格,就像yolo的那个grid cell。这样的话可能将每个小格子当成一个单词原创 2022-06-08 16:19:28 · 1193 阅读 · 0 评论 -
【Transformer 论文精读】……Transformer ……(Transformer开山之做:Attention Is All Y ou Need)
今天看一下号称取代CNN和RNN的transformer模型,走起~。摘要里作者直接说他提出了一种叫做transformer模型,其完全抛弃了原始的循环和卷积神经网络,是一种基于注意力机制的模型。并且取得了比当时最佳模型更好的效果,我发现写论文都是这一套,都是比最好更好。不过我看作者在摘要中的介绍,好像这是一个擅长NLP的模型,虽然我对NLP模型RNN模型涉猎的并不多,但这篇论文不能略过。作者说了一下当下的NLP方向的模型,RNN、LSTM、GRU等,具有编码解码器的结构模型。随后开始点评RNN模型,RNN原创 2022-06-04 18:52:18 · 916 阅读 · 0 评论 -
【生成对抗网络 论文精读】……GAN ……(GAN开山之作:Generative Adversarial Nets )
文章目录一、Abstract(摘要)二、Introduction(引言)三、Related work(相关工作)四、Adversarial nets(对抗网络)论文题目:Generative Adversarial Nets原论文下载地址:https://arxiv.org/pdf/1406.2661.pdf今天来看一下生成对抗网络GAN,这个还蛮有意思的,这篇论文是GAN系列的开山鼻祖。这是一篇很重要的论文,即使不做GAN专门的研究,也要好好读一下这篇论文。一、Abstract(摘要)摘要作者原创 2022-06-01 18:17:49 · 1168 阅读 · 0 评论 -
【目标检测 论文精读】……YOLO-V3 ……(搞笑向学术报告---An Incremental Improvement)
文章目录1.V1,V2回顾:2.Abstract(摘要)3.Introduction(引言)4.The Deal(处理)5.yolov3结构模型:今天看一下yolov3吧,据说这是原yolo作者的最后一篇论文,v4,v5都是其他人写的了。这篇并不算是一个严谨的论文,而是像一篇搞笑向学术报告,不过看上去格式还算正规,并没有像hinton大佬的那一篇dropout那样乱哈哈。论文题目: An Incremental Improvement论文下载地址:https://arxiv.org/pdf/1804原创 2022-05-23 14:40:22 · 877 阅读 · 0 评论 -
【目标检测 论文精读】……YOLO-V2 & YOLO9000 ……(YOLO9000: Better, Faster, Stronger)
anchor和bbox的区别。yolo9000 & yolov2 论文精读原创 2022-05-21 21:48:34 · 736 阅读 · 0 评论 -
【目标检测 论文精读】……YOLO-V1 ……(You Only Look Once: Unified, Real-Time Object Detection)
今天开始YOLO系列,这是一篇目标检测必读论文!给我冲!原创 2022-05-18 19:12:41 · 574 阅读 · 0 评论 -
【目标检测 论文泛读】 Mask R-CNN
文章目录文章提出的背景Faster R-CNN回顾作者的改进思路Mask R-CNN整体结构:RoIAlignMaskMask R-CNN的两种模型小总结R-CNN系列推演:R-CNN 论文解读SSPnet 论文解读Fast R-CNN 论文解读Faster R-CNN 论文解读FPN 论文解读Mask R-CNN 论文解读这篇论文是基于Faster R-CNN的改良版。论文下载地址:https://arxiv.org/pdf/1703.06870.pdf论文题目:Mask R-C原创 2022-05-16 15:32:37 · 1237 阅读 · 0 评论 -
【目标检测 论文泛读】-----FPN------(Feature Pyramid Networks for Object Detection)
文章目录R-CNN模型系列回顾FPN模型提出的背景前人做的工作各种金字塔模型作者提出的改进方法FPN模型:Bottom-upTop-downLateral ConnectionFPN 应用在Faster R-CNN上小总结论文题目:Feature Pyramid Networks for Object Detection论文地址:http://cn.arxiv.org/abs/1612.03144这是R-CNN系列的第五篇要读的论文。R-CNN模型系列回顾老规矩,先大概回顾一下之前的几个模型。原创 2022-05-14 22:45:04 · 891 阅读 · 1 评论 -
【目标检测 论文泛读】Faster R-CNN (清晰表格对比 R-CNN 系列模型)
Faster R-CNN论文解析原创 2022-05-10 16:12:19 · 970 阅读 · 0 评论 -
【目标检测 论文泛读】Fast R-CNN (一张表格对比 R-CNN SPP FRCN)
一张表格对比 R-CNN SPP FRCN原创 2022-05-07 19:40:24 · 740 阅读 · 0 评论 -
【目标检测 论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)
相较于R-CNN的改进版,主要提出金字塔池化模型。原创 2022-05-06 18:30:33 · 1374 阅读 · 0 评论 -
【泛读AI论文】 泛读+复现---- NiN(Network In Network)
文章目录前言为什么要提出NIN模型作者改进的思路和方法NIN网络结构代码复现小总结前言我是看完了Inception系列之后才来看的这个,实际上这篇论文应该在 Alex之后看比较合适。论文题目:Network In Network下载地址:https://arxiv.org/pdf/1312.4400.pdf大致看了一下论文有10页,文章结构上也非常正规。这篇论文是2013年的,Alex是2012年的,所以整篇论文应该都是在对比着Alex讨论的,也可以理解为对Alex的改进。前面的论文我都是一段原创 2022-05-05 17:15:48 · 1268 阅读 · 0 评论 -
【精读AI论文】Xception ------(Xception: Deep Learning with Depthwise Separable Convolutions)
文章目录前言:1.Abstract(摘要)2.Introduction(引言)2.1 初始假设2.2 进一步假设前言:今天搞一下inception最后一个论文,Xception,该论文发表在CVPR2017。看这篇论文之前建议看一下inception之前的几个版本,以及ResNet论文。ResNet 精读+复现inceptionV1 & GoogleNet 精读+复现inceptionV2 & BN 精读inceptionV3 精读InceptionV4 & Inc原创 2022-04-29 19:55:56 · 4107 阅读 · 0 评论 -
【精读AI论文】InceptionV4 & Inception-ResNet (the Impact of Residual Connections on Learning)
文章目录前言Abstract (摘要)Introduction (引言)Related Work (文献综述)前言今天看一下inceptionV4,之前的版本:inceptionV1 & GoogleNet 精读inceptionV2 & BN 精读inceptionV3 精读看这篇论文之前建议看一下inception之前的几个版本,以及ResNet论文。ResNet 精读+复现Abstract (摘要)摘要部分作者主要说,现如今深层的神经网络已经变成了CV领域的主原创 2022-04-24 19:28:48 · 4315 阅读 · 0 评论 -
【精读AI论文】inceptionV3 (Rethinking the Inception Architecture for Computer Vision)
文章目录前言Abstract(摘要)Introduction(引言)General Design Principles(通用设计原则)原则一:避免过度的降维或者收缩特征 尤其在网络浅层。原则二:特征越多,收敛越快。原则三:3 * 3和5 * 5的卷积核卷积之前可以用1 * 1 的卷积核降维,信息不会丢失。原则四:均衡网络中的深度和宽度。Factorizing Convolutions with Large Filter Size(分解大卷积核 )分解方法一:分解方法二:前言今天看一下inception-原创 2022-04-21 15:26:46 · 5199 阅读 · 1 评论 -
【精读AI论文】inceptionV2 & BN-inception & Batch Normalization & BN & 批量标准化
逐句精读BN这篇论文,还有个人的思考和见解。原创 2022-04-17 17:29:27 · 3554 阅读 · 0 评论 -
【精读AI论文】dropout----(A Simple Way to Prevent Neural Networks from Overfitting)
文章目录前言摘要 (Abstract)引言 (Introduction)灵感来源 (Motivation)相关工作 (Related Work)dropout模型介绍(Model Description)训练过程 (Learning Dropout Nets)前言前两天看的那个hinton作者的dropout(笔记在这里),据说他是第一个提出dropout的人,今天看的这个论文是dropout里比较普遍熟知的论文。题目: A Simple Way to Prevent Neural Networks原创 2022-04-13 21:39:50 · 2985 阅读 · 1 评论 -
【精读AI论文】dropout----(Improving neural networks by preventing co-adaptation of feature detectors)
文章目录前言第一页:第一段:第二段:第二页第一段第二段第三段第3-6页思考与总结dropout丢弃的是权重还是输出?dropout的正确性以及随机丢弃对结果的影响?dropout丢弃的是前一层还是后一层?总结论文下载地址:点我下载有很多dropout的文章,我选了两个比较知名的。一个是dropout提出的论文:《Improving neural networks by preventing co-adaptation of feature detectors》还有一个是比较知名的dropout论文:原创 2022-04-10 19:28:45 · 4418 阅读 · 0 评论 -
CNN基础论文 精读+复现---- ResNet(二)
文章目录准备工作BasicBlock块ResNet-18、34网络结构完整代码:小总结准备工作昨天把论文读完了,CNN基础论文 精读+复现---- ResNet(一),今天用pytorch复现一下。之前论文中提到过ResNet有很多种,这里复现一下ResNet-18和ResNet34吧,这俩基本一样。这两种残差块,左边是 18 和34层的,50,101,152用右边的残差快。ResNet-18,只需要左边的残差块,这俩残差块都实现一下,整体网络实现ResNet-18。BasicBlock块原创 2022-03-23 14:41:56 · 4498 阅读 · 1 评论 -
CNN基础论文 精读+复现---- ResNet(一)
文章目录前言第1-2页摘要与引言残差模块第2-3页文献综述第3-4页深度残差网络第4-8页ResNet为什么可以解决网络退化问题?前言ResNet论文下载地址:https://arxiv.org/pdf/1512.03385.pdf论文题目:Deep Residual Learning for Image RecognitionResNet 撑起计算机视觉领域的半边天。CV领域 或者说卷积神经网络领域的两次技术爆炸,第一次是AlexNet,第二次就是ResNet了。第1-2页摘要与引言原创 2022-03-23 14:39:30 · 7746 阅读 · 1 评论 -
CNN基础论文 精读+复现----GoolgeNet & InceptionV1 (二)
文章目录代码复现网络搭建卷积+Relu组合类辅助分类器类inception结构类初始化权重与偏置GoogLeNet模型类训练集程序结果总结昨天看完了Googlenet论文,没看的可以看一下:Googleent精读,今天复现一下把。代码复现代码部分还是较之前的VGG和ZF有一些变化的,分为几个块,我分开来写吧。网络搭建卷积+Relu组合类论文在介绍Googlenet的那一节中说到了卷积后跟激活函数的结构,所以这里创建一个类将卷积和激活函数放在一起。class BasicConv2d(nn.Mo原创 2022-03-20 00:16:07 · 3701 阅读 · 3 评论 -
CNN基础论文 精读+复现----GoogleNet & InceptionV1 (一)
CNN基础论文 精读+pytorch复现代码 GoogleNet & InceptionV1原创 2022-03-19 16:46:48 · 5434 阅读 · 0 评论 -
CNN基础论文 精读+复现----ZFnet(二)
文章目录第5页对Alex的改造遮挡敏感度图像的局部相关性分析第6页8-10页代码实现feature map可视化总结第5页对Alex的改造这里的第四章介绍了一些作者对Alex的改造过程,作者可视化了Alex的1,2层,发现有一些卷积核有极高和极低的信息混合,没有中频信息,第二层发现一些卷积核 因为步长太长出现一些混淆的网格特征,这些都称为无效卷积核。所以作者将Alex里的11 * 11 的卷积核变成了 7 * 7 的。步长 从4降低到2.第一层改造 实现效果作者给在论文第7页。上面是改造前的A原创 2022-03-16 22:04:50 · 974 阅读 · 2 评论 -
CNN基础论文 精读+复现----ZFnet(一)
论文标题:Visualizing and Understanding Convolutional Networks(可视化并理解卷积神经网络)原创 2022-03-15 19:23:41 · 3101 阅读 · 0 评论 -
CNN基础论文 精读+复现----VGG(三)
前言之前已经把VGG大部分的东西弄完了,没看过的可以去看一下,CNN基础论文 精读+复现----VGG(一)CNN基础论文 精读+复现----VGG(二)今天用代码复现一下吧。pytorch实现VGG16。网络搭建在第三章说了很多参数,batch = 256动量 = 0.9权重衰减 5∗10−45 * 10^{-4}5∗10−4dropout = 0.5学习率 0.01epoch = 74看下面这张图开始搭建网络。直接先写出来前两层的卷积+池化,文中已给出 卷积核 3原创 2022-03-11 12:09:42 · 3147 阅读 · 3 评论 -
CNN基础论文 精读+复现----VGG(二)
文章目录前言网络搭建初始化权重结果分析前言之前已经把VGG大部分的东西弄完了,没看过的可以去看一下,CNN基础论文 精读+复现----VGG(一)今天用代码复现一下吧。pytorch实现VGG16。网络搭建在第三章说了很多参数,batch = 256动量 = 0.9权重衰减 5∗10−45 * 10^{-4}5∗10−4dropout = 0.5学习率 0.01epoch = 74看下面这张图开始搭建网络。直接先写出来前两层的卷积+池化,文中已给出 卷积核 3 * 3,原创 2022-03-10 12:09:56 · 2528 阅读 · 0 评论 -
CNN基础论文 精读+复现----VGG(一)
文章目录前言第1页前言原文Github地址:https://github.com/shitbro6/paper/blob/main/VGG.pdf原文arxiv地址 :https://arxiv.org/pdf/1409.1556.pdf这篇文章一共14页,是上一篇文章 AlexNet的进阶版。在复现这篇文章之前,建议看一下Alex的精读文章CNN基础论文 精读+复现----AlexNet(一)第1页摘要和引言主要是介绍了一下当下的历史背景和这个VGG网络。VGG网络是牛津大学提出的,在当原创 2022-03-09 21:58:42 · 2864 阅读 · 1 评论 -
CNN基础论文 精读+复现----AlexNet(三)
文章目录程序完善结果分析总结程序完善前面两篇文章已经把论文中大部分的东西都说完了,网络也搭建起来了,到论文中的第5章了,就是 Details of learning。上次留了个问题,就是有个均值,标准差和全连接隐层神经元偏置初始化的问题,不是很明白,然后查了一下网上大佬的代码。。。。。文章中说到 2,4,5卷积层和全连接层初始化偏置为1,其余为0.可以直接使用(self.C1.bias.data = nn.torch.zeros(self.C1.bias.data.size()),后面加上f原创 2022-02-11 14:51:01 · 980 阅读 · 4 评论 -
CNN基础论文 精读+复现----AlexNet(二)
文章目录网络搭建C1层S2层C3层S4层C5层C6层C7层S8层F9层F10层、F11层LRN层dropout层加入激活函数损失函数与优化器上一篇文章把AlexNet里的大部分都弄完了,没看的可以去看一下 CNN基础论文复现----AlexNet(一) 今天就开始搭建网络模型。网络搭建接着上一次的开始。论文第6页,第五章一开始就说了一大堆的参数,先大概过一遍,后面用的时候回来再看,直接开始搭网络。还是用之前的定义,卷积层为C 池化为S 全连接为F。继续使用优化之后的单GPU训练网络图。C1原创 2022-02-11 14:39:49 · 2244 阅读 · 0 评论 -
CNN基础论文 精读+复现----AlexNet(一)
文章目录前言1-2页摘要与引言数据集3-5页Relu函数(ReLU Nonlinearity)多GPU并行(Training on Multiple GPUs)局部响应归一化( Local Response Normalization)重叠池化(Overlapping Pooling)整体结构(Overall Architecture)5-6页减少过拟合(Reducing Overfitting)数据增强Dropout前言上个礼拜复现了 LeNet-5,没看过的可以去看一下,CNN基础论文复现----L原创 2022-02-11 14:31:23 · 3645 阅读 · 0 评论 -
CNN基础论文 精读+复现----LeNet5 (三)
文章目录前面两章已经把概念数据准备网络搭建等等弄完了,没看的可以去看一下 ,CNN基础论文复现----LeNet5 (一)CNN基础论文复现----LeNet5 (二)现在就是开始训练和结果分析了。原创 2022-02-03 17:48:15 · 1491 阅读 · 3 评论 -
CNN基础论文 精读+复现----LeNet5 (二)
文章目录import torchimport torch.nn as nnimport torch.optim as optimfrom torchvision import datasetsfrom torchvision import transforms as Timport matplotlib.pyplot as pltimport numpy as np原创 2022-02-03 17:20:33 · 2269 阅读 · 1 评论 -
CNN基础论文 精读+复现----LeNet5 (一)
文章目录前言1-3页第4页5-6页LeNet5原版论文已经放到了GitHub上:点我下载前言大致看了一下文章,一共45页,属实是有点长啊。我们只看基础概念和文本识别的介绍,以及LeNet5网络的部分就行了。1-5 介绍背景和文本识别的概念以及机器学习的各种概念5-9 介绍基本的LeNet5的网络9-11 训练结果分析1-3页前两页都是一些历史背景和文章结构的介绍,大概看一下有个印象。第三页开始介绍了一些概念:梯度下降与随机梯度下降:是一种一阶优化方法,实际上就是通过迭代不原创 2022-02-03 16:49:29 · 3320 阅读 · 0 评论