![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读笔记
文章平均质量分 90
唐风绸繆
这个作者很懒,什么都没留下…
展开
-
目标检测论文阅读 YOLO You Only Look Once:Unified, Real-Time Object Detection
预训练使用224*224的图像训练ImageNet,预训练好后使用预训练网络的前20个卷积层+平均池化层+全连接层,(其他论文说明:在预训练的网络中同时添加卷积层和连接层可以提高性能)再加4层卷积和2层全连接(随机初始化权重)去训练检测任务,输入大小为448×448。利用图像的宽和高对box的宽和高做归一化,使其介于0和1之间(box的宽高/原图像的宽高)。(3)此外,小的bbox的偏差应当比大的bbox同尺寸的偏差影响要大,解决方法:使用bbox的宽和高的平方根来计算,而不是宽和高本身。原创 2024-04-27 11:37:34 · 675 阅读 · 0 评论 -
目标检测论文阅读 Mask R-CNN
然后把p5上采样,得到256*50*76,这个p5上采样结果加上res4的1*1卷积结果,得到256*50*76,再来个3*3卷积得到p4。如此一来,FPN的输出即为:[p2: 256*200*304, p3: 256*100*152, p4: 256*50*76, p5: 256*25*38, p6: 256*13*19]。这两个都是用在rpn之后的。图像中存在不同大小的目标,而不同的目标具有不同的特征,所以我们需要特征金字塔来利用浅层的特征将简单的目标区分开,利用深层的特征将复杂的目标区分开。原创 2024-04-27 11:20:33 · 839 阅读 · 0 评论 -
目标检测论文阅读 Cascade R-CNN: Delving into High Quality Object Detection
但问题在于,迭代过程中建议质量不断提升,而迭代检测始终使用同一个检测器H1,由上面的曲线图可知,一个检测器对于不同质量的ROI并不始终是最优的;论文该图分别展示了在IoU阈值为u = 0.5、0.6、0.7时训练的三个检测器的定位和检测性能:高IOU训练的检测器在输入高IOU样本时表现相对更好,反之亦然。如图d所示,训练检测器时简单地采用更高的预设值u并不能提升检测准确性,反而可能降低,这是因为区域提案倾向生成低质量的建议,提升u会导致正样本数量指数下降,导致严重的的过拟合。:设置的IOU阈值u的高低。原创 2024-04-26 22:24:15 · 411 阅读 · 0 评论 -
目标检测论文阅读 Faster RCNN
(2)通过RPN网络从feature map得到候选框ROIs/proposal(约2000个),计算每个ROI和gt之间的iou,通过人为的设定一个IoU阈值(通常为0.5)对ROIs进行二分类,判别候选框内容是正样本(前景)还是负样本(背景),并对这些正负样本采样,使得他们之间的比例尽量满足(1:3,二者总数量通常为128),通过回归微调前景的BBox与标注gt接近。RPN网络的输入是CNN得到的feature map,RPN在feature map上用3*3的滑动窗得到对应原图的多个候选框。原创 2024-04-26 22:22:35 · 1924 阅读 · 0 评论 -
目标检测论文阅读 Fast R-CNN
图像分类任务中,用于卷积层计算的时间比用于全连接层计算的时间多,而在目标检测任务中,selective search算法提取的建议框比较多(约2k),几乎有一半的前向计算时间被花费于全连接层,就Fast R-CNN而言,RoI池化层后的全连接层需要进行约2k次(每个建议框都要计算),因此在Fast R-CNN中可以采用。哪些网络层需要微调?图像金字塔化的一般步骤:首先,图像经过一个低通滤波器进行平滑(这个步骤会使图像变模糊,好像模仿人的视觉中远处的物体没有近处的清晰的原理),然后,对这个平滑后的图像进行。原创 2024-04-26 21:57:47 · 796 阅读 · 1 评论 -
目标检测论文阅读 RCNN Rich feature hierarchies for accurate object detection and semantic segmentation
在实际应用中,通常是选取固定大小的滑动窗口来提取HOG特征,对于一个64×128的图像窗口,每8×8个像素组成一个cell,每2×2个cell组成一个block,一共有105个block,因此该图像的窗口特征维数为105×36=3780。首先,你需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。由于事先并不知道物体在图片的哪个位置,为了避免漏检,我们应该对图片中尽量多的 region 进行搜索,于是有了暴力搜索算法:定义多个大小不同的窗口,在图像上滑动检测,但是这种方法的复杂度极高。原创 2024-04-26 21:45:01 · 758 阅读 · 1 评论 -
目标检测论文阅读 SPPNet Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
多尺寸训练的主要目的是在保证已经充分利用现在被较好优化的固定尺寸网络实现的同时,模拟不同的输入尺寸,并不必要。另外,输入的图像中的对象的尺度可能变换(如两张相同尺寸的图像,一张是某人的合影,另一张的该人的证件照),这会导致预定义的网络参数不再适用。单尺寸训练并非SPPnet所特有的(没发挥出SPP层的作用),以往的图像识别算法如RCNN也可以,作者使用单尺寸训练的目的是测试SPP层对CNN的影响。多尺寸训练的主要目的是在保证已经充分利用现在被较好优化的固定尺寸网络实现的同时,模拟不同的输入尺寸。原创 2024-04-26 21:49:11 · 900 阅读 · 1 评论 -
对比学习论文阅读 SimSiam Exploring Simple Siamese Representation Learning
论文发现孪生网路可以在1没有负样本2没有大批量3没有动量编码器 (只通过禁止梯度回传)的情况下学习到特征表示。文章中最重要的概念是Stop-gradient梯度停止/禁止梯度回传。层:BN有助于训练优化,这与监督学习中BN的作用类似;损失函数:SimSiam的有效性不依赖于对称损失,只是论文设计的对称损失函数更加有效。去除sg,果然崩溃导致了退化解,后续作者还用实验证明退化解是“崩溃”导致的。,总损失是所有图像损失的平均,故最小的可能损失为-1。预测头:移除,则崩溃。---称为对称损失。原创 2024-04-24 11:42:05 · 238 阅读 · 1 评论 -
对比学习论文阅读 BYOL Bootstrap Y our Own LatentA New Approach to Self-Supervised Learning
因此一个自然的想法是我们不仅仅要拉近相同数据的特征距离,也要拉远不同数据的特征距离,换句话说就是不仅要有正样本对,也要有负样本对,这确实解决了训练崩塌的问题,但是也带来了一个新的问题,那就是对负样本对的数量要求较大,因为只有这样才能训练出足够强的特征提取能力,因此我们可以看到这方面的代表作如SimCLR系列都需要较大的batch size才能有较好的效果。,τ取0.99效果优)进行参数更新。就是这样做的,并且取得了非常好的效果。(BYOL的双网络中,目标网络的参数不是固定了,而是慢动平均的,借鉴moco)原创 2024-04-24 11:41:00 · 368 阅读 · 1 评论 -
对比学习论文阅读 MOCO Momentum Contrast for Unsupervised Visual Representation Learning
以此满足字典要尽可能大的要求。第二次迭代与第一次相同,唯一不同的是,此时队列里已经有了key0,就可以计算logits_neg,总的logits(NX(1+K))就是将logits_neg和logits_pos拼接,接着计算loss,更新编码器q的参数,直到所有的负样本特征输出完全入队列,这里的队列大小为65536,因为batchsize设置为256,所以要迭代65536/256=256次才能将队列占满。是当前时刻的输入,实质就是不想当前时刻的输出完全依赖于当前时刻的输入,也希望继承之前的输出的信息。原创 2024-04-24 11:40:02 · 1936 阅读 · 1 评论 -
对比学习论文阅读 simCLR A Simple Framework for Contrastive Learning of Visual Representations
但是当batch size很大的时候,学习率增加太大会导致学习不稳定,尤其是在训练早期阶段,如果学习率太大,则参数可能在错误的方向上更新很多,从而导致模型最终的表现很差。作者从以上观察出发得出结论,既然并不是所有层的ratio比较小,那么各个层的更新参数使用的学习率应该根据自己的情况有所调整,而不是所有层使用相同的学习率。之前主流的用来缓解该问题的方法是学习率warm-up,在训练的前几个周期,从一个比较小的学习率开始,线性增加到最终使用的学习率。(SGD属于离线学习,BGD、MBGD属于在线学习)原创 2024-04-24 11:37:42 · 718 阅读 · 1 评论 -
论文阅读 ResNext Aggregated Residual Transformations for Deep Neural Networks
(虽然后者上下两个1*1的卷积层参数多于前者,但3*3的卷积层参数少)(concatenate是Inception里面的内容,可以理解为把特征图摞起来)但不同的是,我们在多个路径之间共享相同的拓扑结构。作者直接废除了Inception的囊括不同感受野的特性仿佛不是很合理,在更多的环境中我们发现Inception V4的效果是优于ResNeXt的(但ResNeXt速度肯定更快)Vgg和resnet说明了构建非常深的网络的简单而有效的策略:堆叠相同形状的构建块,这个简单的规则减少了对超参数的自由选择。原创 2024-04-23 13:00:25 · 251 阅读 · 0 评论 -
论文阅读 ResNet Deep Residual Learning for Image Recognition
而通过跳连接,可以把前四层的输出先送到FC层前面,也就相当于告诉紫色层:”兄弟你放心,我已经做完98%的工作了,你看看能不能在剩下的2%中发点力,你要是找不出提升性能的效果也没事,直接把把参数置零、输出零就行,照样会有98的准确率,不会导致准确率下降。原始的映射就可以写成F(X)+X。当然,实际上网络运行的时候,我们并不会知道哪几层就能达到很好的效果,然后在它们的后面接一个跳连接,于是一开始便在两个层或者三个层之间添加跳连接,形成残差块,每个残差块只关注当前的残余映射,而不会关注前面已经实现的底层映射。原创 2024-04-23 12:59:20 · 635 阅读 · 1 评论 -
论文阅读 GoogleNet(Inception) Going deeper with convolutions
其中,那么卷积层的参数为128×5×5×256。此时如果上一层输出先经过具有32个输出的1×1卷积层,再经过具有256个输出的5×5卷积层,那么最终的输出数据仍为为100×100×256,但卷积参数量已经减少为128×1×1×32+32×5×5×256,相比之下参数大约减少了4倍。原始Inception 结构采用1×1、3×3和5×5三种卷积核的卷积层(和一个最大池化)进行并行提取特征,这可以加大网络模型的宽度,不同大小的卷积核也就意味着原始Inception 结构可以获取到不同大小的感受野。原创 2024-04-23 12:57:33 · 392 阅读 · 1 评论 -
论文阅读 VGGNet VERY DEEP CONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION
比如VGG使用 2个3X3的卷积核来代替5X5的卷积核,3个3X3的卷积核代替7X7的卷积核(三层3X3感受野和7X7相同,但参数少)。来卷积这张图,卷积核里的值叫做权重,这张图的每个位置是被同一个卷积核扫的,即卷积的时候所用的权重是一样的。卷积层代替全连接层的方式,其卷积核的计算是并行的,不需要同时读入内存中,所以使用卷积层的方式代替全连接层可以加开模型的优化。几个小滤波器(3x3)卷积层的组合比一个大滤波器(5x5或7x7)卷积层好:验证了通过不断加深网络结构可以提升性能。的卷积核,这个卷积核内。原创 2024-04-23 12:56:05 · 361 阅读 · 1 评论 -
论文阅读 AlexNet ImageNet Classification with Deep ConvolutionalNeural Networks
Overlapping Pooling—重叠池化:一般的池化,一个像素是不会被多次池化的,重叠池化设置步长s小于池化核大小z,得到重叠池化,比一般的池化效果好。规律:我们输入的图片从一个又高又宽又扁的一个形状,慢慢变为了一个宽和高都很小,但是很长的一个张量,这是说我们的空间信息被压缩了也就是从一开始的。上运行,所以网络结构被一切为二,上下两部分各自训练各自的,各有各的参数核,结构都是一样的(比如一层网络有。整个结构有八层,前五层为卷积层,后三层为全连接层,最后再跟一个。dropout正则化减少过拟合。原创 2024-04-23 12:54:59 · 465 阅读 · 0 评论 -
论文阅读 LeNET CONVOLUTIONAL NEURAL NETWORKS FOR ISOLATED CHARACTER RECOGNITION
原文中对这个模式的解释为:前六个(即上图横坐标0-5)卷积核提取中 连续三个子集中的特征,后六个(即上图横坐标6-11)卷积核提取中连续四个子集中的特征,后三个(即上图横坐标12-14)卷积核提取中离散的四个子集中的特征,最后一个提取全图特征,参数量为6∗(3∗5∗5+1)+6∗(4∗5∗5+1)+3∗(4∗5∗5+1)+1∗(6∗5∗5+1)=1516。一个完整的卷积层是通过几个特征图联合组成的(通过不同的权重向量,即不同卷积核),因此卷积网络可以在输入图像的每个局部位置形成多重特征。原创 2024-04-23 12:53:49 · 386 阅读 · 0 评论