论文阅读
文章平均质量分 93
经典论文阅读与解析
何如千泷
这个作者很懒,什么都没留下…
展开
-
【论文阅读】RCNN论文详解
RCNN1. 目标检测目标检测是分类任务(bounding box中物体的类别)和回归任务(bounding box的大小及位置)的组合。2. RCNN的贡献根据Selective Search算法提取Region proposal候选区域将每个Region proposal缩放到统一大小后,通过CNNCNNCNN提取固定大小的特征将提取出的特征通过SVMSVMSVM进行分类训练一个回归器,对bounding box边界框进行调整,使其接近ground truth真实边界框3. Regi原创 2021-11-04 17:52:49 · 1171 阅读 · 0 评论 -
【论文阅读】Fast RCNN论文详解
Fast RCNN1. Introduction1.1 R-CNNR-CNN存在以下几个问题:Training is a multi-stage pipeline: 训练分多步,每次训练需要fine tuning一个预训练网络,然后region proposals要通过selective search算法获取,还有针对每一个类别都训练一个SVM分类器,最后还要用regressor对bounding box进行回归Training is expensive in space and time: 时原创 2021-11-04 21:14:46 · 1118 阅读 · 1 评论 -
【论文阅读】Faster RCNN论文详解
Faster RCNN建议先阅读之前的RCNN和Fast RCNN后再来阅读此文Faster RCNN提出了Region Proposal Network解决了Fast RCNN中selective search算法提取候选框速度太慢的问题。1. Faster RCNN初识conv layers:通过CNNCNNCNN提取image的feature maps。此feature maps被共享用于后续的层Region Proposal Networl:用于生成region proposals原创 2021-11-05 15:39:15 · 4540 阅读 · 0 评论 -
【论文阅读】SSD论文详解
The Single Shot Detector1 Model模型架构精简版模型架构细节版1.1 Multi-scale feature maps for detection我们在基础网络(VGG)的后面增加了不同大小的卷积层,使得特征图经过这些卷积层的大小逐渐减少,从而使得网络能够在不同尺度进行检测。具体来说:VGG网络Conv5_3之间称为基础网络,用来提取图像特征将VGG网络中MaxPool5的大小从2x2-s2改为3x3-s1将VGG网络中的FC6和FC7分别改为卷积层Co原创 2021-11-15 11:23:33 · 4181 阅读 · 1 评论 -
【论文阅读】YOLOV1论文详解
YOLOV11. IntroductionYOLO非常简单:对于一张完整的图像,通过一个单一的卷积网络可以同时预测多个bounding boxes的回归参数和这些boxes的类别概率,并直接优化检测性能。这种统一的模式相对于传统的目标检测有以下几个好处:检测特别快。与滑动窗口和基于region proposal的技术不同,YOLO在训练和测试期间可以看到整个图像,因此它能隐式地编码类别以及它们的外观的上下文信息YOLO学习地是目标的通用表示法,具有高度的通用性但是,在准确性上,YOLO仍然原创 2021-11-20 20:55:31 · 3193 阅读 · 0 评论 -
【论文阅读】YOLOV2论文详解
本文主要介绍了YOLOV2的Better和Faster部分1. BetterYOLOV1存在如下两个缺点:定位误差大与基于region proposal的方法相比,召回率低因此,我们集中提高定位准确性和召回率,同时保证分类的准确性1.1 Batch NormalizationBN可以显著改善模型的收敛性,通过在每个卷积层的后面增加BN层,模型提高了**2%**的mAP。通过BN,我们可以在保证模型不会过拟合的情况下,丢弃dropout层1.2 High Resolution Clas.原创 2021-11-21 17:35:57 · 3514 阅读 · 1 评论 -
【论文阅读】YOLOV3论文详解
本文主要介绍了YOLOV3的网络结构和损失函数,其他部分几乎与YOLOV2相差无几。1. Introduction2. The Deal2.1 Bounding Box Prediction在YOLOV2后,我们的系统开始使用聚类来确定anchor的尺寸和比例。网络会为每一个bounding box预测4个坐标:tx,ty,tw,tht_x,t_y,t_w,t_htx,ty,tw,th。如果网格单元相对于图像的左上角的偏移为哦(cx,cy)(c_x,c_y)(cx,cy),而且a.原创 2021-11-22 19:55:09 · 1874 阅读 · 0 评论 -
【论文阅读】YOLOV4论文详解
1. Introduction本文的贡献如下:我们开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080 Ti或2080 TiGPU来训练一个超级快速和准确的目标探测器。在检测器的训练过程中,我们验证了最先进的Bag-of-Freebies和Bag-of-Specials我们修改了最先进的方法,使其更有效,更适合于单GPU训练,包括CBN、PAN、SAM等。2. Related work2.1 Object detection models我们对现有的目标检测算法进行了总结,.原创 2021-11-29 23:12:43 · 3634 阅读 · 1 评论 -
【论文阅读】DenseNet网络结构详解及代码复现
1. DenseNet论文详解Abstract:如果在靠近输入和靠近输出层之间包含更短的连接,那么卷积神经网络可以很大程度上更深,更准确和高效地进行训练。根据这一结果,我们提出了DenseNet(密集卷积网络): 对于每一层,所有前一层地特征图作为输入,而这一层地特征图用作所有后续层地输入。优势有:缓解了梯度消失问题,加强了特征传播,鼓励特征复用,并很大程度上减小了参数的数量。1.1. Introduction随着卷积神经网络的不断加深,出现了一个问题——关于输入或梯度在经过很多层到达网络的终点(.原创 2021-05-15 20:04:34 · 13596 阅读 · 12 评论 -
【论文阅读】ResNet网络结构详解及代码复现
1. ResNet论文详解1.1. Introduction一般网络越深,特征就越丰富,模型效果也就越好。在深度重要的驱动下,出现了2个问题:梯度消失和梯度爆炸:梯度消失:误差梯度<1,当网络层数增多时,最终求的梯度会以指数形式衰减梯度爆炸:误差梯度>1,当网络层数增多时,最终求的梯度会以指数形式增加解决方式:Xavier 初始化、Kaiming 初始化等Batch Normalization退化问题:在适当深度的模型中添加更多的层会导致更高的训练误.原创 2021-05-14 19:45:16 · 5095 阅读 · 6 评论 -
【论文阅读】GoogLeNet网络结构详解及代码复现
1. GoogLeNet论文详解Abstract:提出了GoogLeNet网络结构——22层,此设计允许在保证计算预算不变的前提下,增加网络的深度和宽度,这个网络结构是基于Hebbian原则和多尺度处理,并且在ILSVRC 2014中的分类任务中获得第一名。对于大型数据集,最近的趋势是增加层数和每一层的尺寸,同时使用dropout来解决过拟合问题层尺寸的增大意味着需要更大数量的参数,这会使得网络更容易过拟合,尤其是对于数据集小的情况下层深度的增加会大大增加计算资源的使用,尤其是卷积层的权重为0时原创 2021-05-04 20:44:57 · 3521 阅读 · 5 评论 -
【论文阅读】VggNet网络结构及代码复现
1. VGGNet网络论文详解1. Abstract:本文的主要贡献:使用非常小的(3*3)卷积核(感受野思想)的架构来增加网络的深度,从而提高图形识别的准确性。并在ImageNet Challenge 2014 中的Localization Task获得第一名,Classification Task获得第二名。2. ConvNet 配置:网络层结构的设计灵感来源于Flexible, high performance convolutional neural networks for image c原创 2021-04-23 21:15:52 · 860 阅读 · 1 评论 -
【论文阅读】AlexNet网络结构及其代码复现
AlexNet网络1. AlexNet论文解析1.1 Abstract此神经网络由5个卷积层(其中一些是最大池化层)和3个全连接层组成。为了减少全连接层中的过拟合,采用了dropout方法,此方法在实验中被证明非常有效。在ILSVRC-2012比赛中,top-5 test error rate : 15.3% <第二名 26.2%>。1.2 Details of learning1. 数据增强从256*256的图像随机提取224*224的图像,并进行水平翻转,这使得了训练数据增加的原创 2021-04-17 19:46:03 · 1595 阅读 · 7 评论 -
【论文阅读】Mobile Net 系列【V1—V3】
1. MobileNet V11.1 Abstract我们提出了一类用于移动和嵌入式视觉应用程序的高效模——MobileNet,此模型使用深度可分离卷积来构建轻量级深度神经网络。我们还介绍了两个超参数:用于控制模型的延迟(模型运行时间)和准确率1.2 Introduction在计算机视觉中,目前存在的一般趋势是制造更深更复杂的网络以实现更高的准确性。但是,在现实世界中的应用程序中,需要在有限的平台上以低延迟的方式实现识别任务。最近出现的许多方法只是关注模型的大小,而没有考虑速度,主要通过压缩预训练原创 2021-10-30 17:03:10 · 2822 阅读 · 0 评论 -
【论文阅读】Shuffle Net系列【V1—V2】
1. ShuffleNet V11.1 Abstract我们提出了一个极其效率的CNN架构——ShuffleNet,其专为计算能力非常有限的移动设备设计。这个新的架构利用了两个新的操作:pointwise group conv和channel shuffle,并大大降低计算成本,同时确保准确性。1.2 Approach1.2.1 Channel Shuffle for Group Convolutions在微型网络结构中, 由于 1×1 卷积计算代价很高,在计算资源有限的情况下特征图的通道数就会受原创 2021-10-31 15:19:07 · 1025 阅读 · 4 评论 -
【论文阅读】GhostNet详解及代码实现
Ghost Net1. Introduction上图是由ResNet-50中的第一个残差块生成的某些中间特征图的可视化。从图中我们可以看出,这里面有很多特征图是具有高度相似性的(在图中分别用不同的颜色示意),换句话说,就是存在许多的冗余特征图。所以从另一个角度想,我们是不是可以利用一系列的线性变化,以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图呢?这个便是整篇文章的核心思想。2. ApproachGhost module:先通过conv生成一些特征图然后对生成的特征图进行ch原创 2021-10-31 15:44:42 · 14877 阅读 · 0 评论 -
【论文阅读】Vision Transformer
在计算机视觉领域中,多数算法都是保持CNN整体结构不变,在CNN中增加attention模块或者使用attention模块替换CNN中的某些部分。有研究者提出,没有必要总是依赖于CNN。因此,作者提出ViT算法,仅仅使用Transformer结构也能够在图像分类任务中表现很好。受到NLP领域中Transformer成功应用的启发,ViT算法中尝试将标准的Transformer结构直接应用于图像,并对整个图像分类流程进行最少的修改。原创 2022-09-05 17:26:11 · 4187 阅读 · 2 评论 -
【论文阅读】PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
在计算机视觉和自然语言处理中,在大规模数据集上预训练的系统已经很好地推广到了几个任务中。然而,在用于音频模式识别的大规模数据集上对预训练系统的研究有限。在本文中,我们提出了在大规模AudioSet数据集上训练的预训练音频神经网络(PANN)。这些PANN被转移到其他与音频相关的任务。我们研究了由各种卷积神经网络建模的PANN的性能和计算复杂性。我们提出了一种称为Wavegram-Logmel-CNN的架构,使用log-mel频谱图和波形图作为输入特征。原创 2023-09-10 18:29:15 · 746 阅读 · 3 评论 -
【论文阅读】PSPNet论文详解
在本文中,我们通过金字塔池化模块提出了用于场景解析的PSPNet,该网络可以聚合不同区域的上下文信息来挖掘全局的上下文信息,我们的全局信息可以有效地在场景解析任务中产生高质量的结果。1. Introduction基于语义分割的场景解析是计算机视觉的一个基础课题,其目的是为图像中的每一个像素指定一个类别标签。最先进的场景解析分析框架主要是基于全卷积网络(FCN),基于深度卷积神经网络的方法提高了对动态对象的理解,但由于场景的多样性和词汇的不受限制性,其仍然面临较大的挑战。比如下图中第一行展示的例子,.原创 2021-12-21 17:34:41 · 5816 阅读 · 0 评论 -
【论文阅读】U-Net论文详解
U-Net论文详解U-Net结构由一个用于捕获上下文信息的压缩路径和一个支持精确定位的对称扩展路径构成。实验结果表明可以从很少的图像进行端到端的训练,并在ISBI挑战上优于先前最优的方法(滑动窗口卷积网络),并获得了冠军1. 背景介绍卷积网络的典型应用是分类任务,其中图像的输出是一个单一的类标签。然而在许多视觉任务中,特别是生物医学图像处理中,期望的输出应该包含定位,即给每一个像素点分配一个类标签。于是滑动窗口卷积网络通过提供像素点周围的局部区域来预测每个像素的类别标签。但是这样的方法存在两个缺原创 2021-12-27 22:46:40 · 3336 阅读 · 1 评论 -
【论文阅读】FCN网络详解
FCN论文详解1. 将全连接层替换为卷积层语义分割的目的是对图像中每一个像素点进行分类,与普通的分类任务只输出图像某个类别不同,语义分割任务输出的是与输入图像大小相同的图像,输出图像的每个像素对应输入图像每个像素的类别,这也就是论文中提到的dense prediction。FCN全卷积网络是图像分割开山之作,其核心思想非常简单,用卷积层代替分类网络中的全连接层。用于分类的神经网络由卷积层、池化层和最后连接的全连接层组成,经过最后的全连接层后,二维的图像信息被映射为具体的一维类别信息进行输出,得到分原创 2021-12-30 23:11:47 · 2960 阅读 · 0 评论 -
【论文阅读】SegNet算法详解
SegNet论文详解本文提出了一种用于语义分割的深度全卷积神经网络结构SegNet,其核心由一个编码器网络和一个对应的解码器网络以及一个像素级分类层组成。本文的创新在于:解码器使用在对应编码器的最大池化步骤中计算的池化索引来执行非线性上采样,这与反卷积相比,减少了参数量和运算量,而且消除了学习上采样的需要。1. 网络结构1.1 编码器Conv层通过卷积提取特征,其中使用的是same padding的卷积,不会改变特征图的尺寸BN层起到归一化的作用ReLU层起到激活函原创 2021-12-31 11:31:39 · 11535 阅读 · 10 评论 -
【论文阅读】DeepLab系列
DeepLab系列详细解读,并使用Pytorch实现原创 2022-06-17 11:33:37 · 1060 阅读 · 3 评论