羊村第一突破手懒羊羊-CSDN博客

原创 HRNet-学习记录

第一个阶段包含4个残差单元，每个单元类似于ResNet-50，由一个宽度为64的瓶颈组成，后面跟随一个3×3的卷积将特征图的宽度减少到C。作者从一个高分辨率子网络作为第一阶段开始，逐步添加高到低分辨率的子网络，形成新的阶段，并以并行方式连接多分辨率子网络。结果是，后面阶段的并行子网络的分辨率由前一阶段的分辨率组成，并额外增加了一个较低的分辨率。现有的姿势估计网络是通过将高到低分辨率的子网络串联连接而构建的，其中每个子网络形成一个阶段，由一系列的卷积层组成，并在相邻的子网络之间存在一个下采样层以减半分辨率。

2023-08-02 21:00:00 229

原创 Mask R-CNN-学习记录

Mask R-CNN，它通过在现有的分类和边界框回归分支中添加一个用于在每个感兴趣区域（RoI）上预测分割掩码的分支来扩展 Faster R-CNN。（一）摘要：摘要：Mask R-CNN是一种基于卷积神经网络的目标检测和语义分割方法，它在Faster R-CNN架构的基础上进行了改进。其网络架构由骨干网络和网络头部组成，骨干网络用于提取图像特征，而网络头部负责边界框识别和对每个ROI进行掩码预测。FPN的骨干网络在Mask R-CNN中被使用，根据其尺度从特征金字塔的不同层级提取RoI特征。

2023-08-02 19:30:00 111

原创 Unet3+-学习记录

同时，作者还提出了一种混合损失函数，并设计了一个分类引导模块，以增强器官边界并减少非器官图像的过分分割，从而获得更准确的分割结果。同时，作者还提出了一种混合损失函数，并设计了一个分类引导模块，以增强器官边界并减少非器官图像的过分分割，从而获得更准确的分割结果。（1）设计了一种新颖的UNet3+，通过引入全尺度跳过连接充分利用多尺度特征，将来自完整尺度的特征映射中的低级细节和高级语义结合起来，但参数更少；同时，为了进一步增强器官的边界，作者提出了一种新的损失函数，以赋予模糊边界更高的权重。

2023-08-02 15:30:00 201

原创 Unet++-学习记录

例如，节点X0,0和X1,3之间的跳过路径由一个具有三个卷积层的稠密卷积块组成，其中每个卷积层前面都有一个连接层，该连接层将相同稠密块的先前卷积层的输出与较低稠密块的相应上采样输出融合。通过在多个层级上应用损失函数，可以使模型在更细粒度的特征层面进行监督学习，并充分利用不同级别的信息，从而提高分割模型的性能。UNet++与U-Net（图中的黑色部分）的区别在于重新设计的跳过路径（绿色和蓝色显示）连接了这两个子网络，并且使用了深度监督。（三）关键词：图像分割，深度监督，医学应用，跳跃连接。

2023-08-02 13:15:00 162

原创 UNet-学习记录

U-Net使用了跳跃连接（skip connections），将收缩路径中的特征图与扩张路径中相应的特征图进行连接，这有助于将详细信息传递到最终的分割输出中。它由两个3x3的卷积（无填充卷积）的重复应用组成，每个卷积后面跟着一个修正线性单元（ReLU）和一个2x2的最大池化操作，步长为2，用于下采样。扩张路径中的每个步骤都包括特征图的上采样，随后是一个2x2的卷积（"上卷积"），将特征通道数量减半，然后与收缩路径中相应裁剪的特征图进行连接，以及两个3x3的卷积，每个卷积后面跟着一个ReLU。

2023-08-01 23:00:00 93

原创 DeepLabv3+-学习记录

因此，作者提出了一个简单但有效的解码器模块。首先，将编码器特征双线性上采样4倍，然后与网络骨干相应的低级特征进行拼接，这些低级特征具有相同的空间分辨率。DeepLabv3+在DeepLabv3的基础上添加了一个简单而有效的解码器模块，丰富的语义信息被编码在DeepLabv3的输出中，通过应用空洞卷积可以控制编码器特征的密度，具体取决于计算资源的预算。增加了编码-解码结构，同时添加了Xception模型，并将深度可分离卷积应用于空洞空间金字塔池化和解码器模块，从而实现了更快速和更强大的编码-解码网络。

2023-08-01 21:15:00 146

原创 DeepLabv3-学习记录

为了解决这个问题，作者使用空洞卷积，通过从最后几层中移除下采样操作并上采样相应的滤波器核，从而提取更密集的特征图，等效于在滤波器权重之间插入孔洞。当3×3的滤波器应用于65×65的特征图时，当速率值接近特征图大小时，在极端情况下，3×3的滤波器不再捕捉整个图像上下文，而变成了一个简单的1×1的滤波器，因为只有滤波器中心的权重有效。最终的改动就是针对output_stride=16的情况，使用了一个1×1的卷积层和三个3×3的卷积层，采样率为（6，12，18）。第三种，添加额外的模块，用于捕捉长距离信息。

2023-08-01 19:45:00 59

原创 DeepLabv2-学习记录

例如，为了在VGG-16或ResNet-101网络中增加计算特征响应的空间密度，作者找到降低分辨率的最后一个池化或卷积层（分别为'pool5'或'conv5 1'），将其步幅设置为1以避免信号减采样，并将所有后续的卷积层替换为空洞卷积层，其中的rate r = 2。相反，作者采用了一种混合方法，以在效率和准确性之间取得良好的平衡，使用空洞卷积将计算的特征图的密度增加4倍，然后通过额外的8倍快速双线性插值恢复到原始图像分辨率的特征图。可以很明显的看出，相比第一版本，第二版本采用了多尺度输入处理的方式。

2023-08-01 15:15:00 66

原创 DeepLabV1-学习记录

整体结构是在VGG-16的模型上完成的，将VGG-16的全连接层转换为卷积层，并以卷积方式在原始分辨率上运行网络。具体来说，在传统的卷积操作中，卷积核的每个元素与输入特征图的相应位置进行卷积运算，然后将结果进行求和形成输出特征图的一个像素。而在有孔卷积中，卷积核的元素之间有一定的间隔，即存在“孔”，从而增加了输出特征图的像素之间的距离。作者发现，DCNN最后一层的响应对于准确的目标分割来说不够局部化，并通过将最终DCNN层的响应与完全连接的条件随机场（CRF）结合起来，克服了深度网络的这种较差局部化性质。

2023-08-01 08:47:31 66

原创 FCN-学习记录

如果是矩阵的话，根据矩阵相乘规律，Z就是K的转置矩阵，具备同样的shape。通过将4096的全连接层转化为1×1的卷积层，再添加损失函数，就得到了一个很不错的端到端密集学习网络。可以看出，正常卷积完成后的图像是原图的1/32，conv7的特征图经过两次上采样并与pool4的结果进行特征融合。主要使用的技术有三种，第一是卷积，第二是上采样，网络内的上采样层使得像素级的预测和学习成为可能，即使在具有子采样池化的网络中也是如此。它们可以接受任意尺寸的输入，并输出相应尺寸的输出，具有高效的推理和学习能力。

2023-07-26 11:11:38 61

原创 FCOS-学习记录

其实可以简单的看出，FCOS也是呈现FPN结构，也使用了横向连接，并且也最终分为两个支路，一个处理类别概率，一个处理边界框的回归。因为FCOS不设置anchor boxes，而是将位置作为训练样本，如果一个位置落在了GT内，则是正样本，它的类别就是框的类别，反之是负样本，则为0。3）为了达到较高的召回率，基于锚框的检测器需要在输入图像上密集地放置锚框（例如，对于较短边为800的图像，在特征金字塔网络（FPN）中需要超过180K个锚框）。（三）关键词：目标检测，全卷积神经网络，单阶段检测，无锚框训练。

2023-07-25 17:28:22 62

原创 RetinaNet-学习记录

主要意思是指出在处理类别不平衡的目标检测任务中，由于负样本数量远远超过正样本数量，传统的交叉熵损失函数无法很好地处理这种情况。分类子网的设计也很简单，从给定的金字塔级别获取具有 C 个通道的输入特征图，子网应用四个 3×3 卷积层，每个具有 C 个过滤器，每个后跟 Re LU 激活，然后是带有 KA 过滤器的 3×3 卷积层。作者认为单节段的目标检测网络比双阶段的更有潜力，即使现在双阶段目标检测的性能已经超过了单节段目标检测。（三）关键词：目标检测，卷积神经网络，单阶段检测，焦点损失函数，类不平衡问题。

2023-07-25 14:04:32 85

原创 Yolov3-学习记录

因为在每个尺度上预测3个边界框，所以该张量的大小为N × N × [3 * (4 + 1 + 80)]，其中4个是边界框的偏移量，1个是物体性预测，80个是类别预测。网络使用连续的3×3和1×1卷积层，但现在还添加了一些shortcut连接，并且规模更大。在改进了网络结构的基础上，作者也做出了许多尝试，例如用线性方法预测x,y的偏置，但是结果是精度下降了。YoLov3只是相对于以前的版本进行了一些细小的改变，比以往更准确，但网络整体会大一点。（三）关键词：目标检测，卷积神经网络，单阶段检测。

2023-07-25 10:48:52 45

原创 Yolov2-学习记录

相比于其他先进的检测网络，yolo存在许多问题，例如大量的定位错误，相比较于region proposal方法，yolo的召回率也很低。同时yolo为了获得更细致的特征，引入了穿越层（passthrough layer），穿越层通过将高分辨率特征与低分辨率特征连接起来，将邻近特征堆叠到不同的通道中，而不是按空间位置进行堆叠，类似于ResNet中的身份映射（identity mappings）的方式。批量归一化，批归一化在加速收敛的同时，消除了对其他形式正则化的需求，这对于提高性能有着显著的改进。

2023-07-24 17:09:17 56

原创 YoloV1-学习记录

如图中的网络分格所示，7×7的图像会得到49个小的网格，叫做grid cell，在第一代版本中，每一个grid cell会预测出两个bounding box，每个bounding box同时预测着4+1个重要的信息，即x,y,w,h，分别是它所预测的物体的中心点坐标（x,y）和宽度（w）以及高度（h），以及预测一个置信度值（confidence score），它表示该bounding box 中是否存在物体目标，即目标存在的概率, 该值为0~1之间的数值。

2023-07-24 15:22:50 63

原创 SSD-学习记录

（一）摘要：SSD是单一的深度神经网络，将一系列不同比例和缩放的边界框放入预先设置好的默认框中，在预测阶段，神经网络会生成每个目标类别的概率在每个默认的边界框中，以及调整边界框到合适的位置。此后会在这六个特征层中预测目标。实验表明，来自较低层的特征图可以提高语义分割的质量，因为较低的层可以捕获更多的输入对象的细节。作者提出，虽然现在目标检测领域发展的很不错，例如FasterRCNN在各个大赛上的表现都很好，但是它也中一定的缺陷，即计算过于密集复杂，且即使在高性能设备上也太慢了，很难做到真正的实时检测。

2023-07-24 10:43:52 64

原创 FasterR-CNN-学习记录

卷积后的结果出来后先经过一个3×3的卷积，之后再分别经过两个1×1的卷积，这时候已经分为两条线路了。这些都是通过一个全卷积网络实现的。假设有k个类别，那么就会有k个预测框，同时回归层有4k（包含x,y,h,w）个输出，编码了k个框的坐标，而分类层有2k（需要计算前景和背景）个分数输出，用于估计每个proposal是目标或非目标的概率。相比于传统的图像金字塔和滤波器金字塔，RPN采用了新的方法，即预先设定的“锚”框，作为不同尺寸和长宽上的参考，这种方法在训练和测试时候的表现还不错，一定程度上提高了运算速度。

2023-07-21 15:49:50 59 1

原创 FastRCNN-学习记录

当图像输入的时候，首先使用卷积层和最大池化层对图像进行处理，生成conv特征图，然后对于一个proposal，使用ROI层提取固定长度的特征向量。比如，训练的花费很高，因为SVM和边界框回归需要对每个对象进行处理。目标检测需要处理的两个问题分别是候选区域的处理，以及，因为候选区域只能提供粗糙的定位，必须细化才能获得精确的定位。（一）摘要：FastRCNN使用卷积神经网络执行目标检测任务，通过训练VGG16，最终的效果是RCN的九倍，并且经过PASCALVOV2012的验证，获得了更高的精准度。

2023-07-21 11:18:36 63 1

原创 R-CNN-学习记录

而对于第二模块的特征提取，首先需要做的就是调整输入图像的大小，因为AlexNet的输入图像大小是227×227，因此也需要将其调整一致。同时，因为CNN需要做新的任务，我们也需要对其做特定领域的参数调优。而是建立映射关系，也就是回归，如果x是region proposal的特征值，y是需要移动的尺度，那么我们需要的就是训练一组W，使得y=Wx。这种方法可以在候选区域自上而下的使用CNNs，并且当带标签的训练数据不足时，先针对辅助任务进行有监督预训练，再进行特定任务的调优。第三个是一个指定类别的线性SVM。

2023-07-20 20:02:14 55

原创 RepVGG-学习记录

假设输入的特征图通道数为2，使用两个卷积核去处理，得到的结果再作为BN层的输入做处理，得到的最后的卷积层只需要在对应的卷积核权重上乘以相关系数即可，最后加上偏执。作者纵观整个卷积神经网络，发现现在的那些网络架构是很厉害，准确率是很高，也变的越来越复杂，但是问题也有一些。但是它使用了一种新的技术叫结构重参数化，使用了这个技术的新VGG模型叫RepVGG，比以往的模型具备更好的性能。而对于将BN层转换为3×3卷积，因为BN层没有卷积，因此构建卷积层出来即可，卷积层只需要做恒等映射即可。

2023-07-20 16:08:05 97

原创 ConvNeXt-学习记录

作者接着完成了block堆叠比例的设计，例如在原始的ResNet中的堆叠次数是（3，3，4，6），换算成比例就是（1：1:2:1）,而SwinTransformer中是（1：1：3：1），因此作者也学着将block的次数比例调整为（1：1：3：1）。SwinTransformer对全局做self-attention时，使用的是7×7的大小窗口，而卷积神经网络中普遍使用的是3×3大小，因为现在的GPU设备对3×3大小的卷积核做了很多优化，因此作者做出了一些改动来提高ResNet的性能。

2023-07-20 11:19:17 488

原创 SwinTransformer-学习记录

我们可以很清晰的看到，整个的网络结构有四个阶段，首先是进入一个H×W的三通道图像，经过第一个模块进行分块操作，即每4×4个像素作为一个patch，因此一个图像的的整体patch就是4×4×3（RGB）=48.接下操作就是linear embedding层，在论文中的解释是通过这个层，可以将特征值投影到不同的维度之中。最后为了把它（右则9个块的图）回归到4×4的图像，作者就采用了将左边一列，上方一排的窗口，直接移动到右下方的方法，最后通过堆叠，完成了重组。而关于相对位置偏执，讲的不是很清晰，就说了效果不错。

2023-07-19 21:10:04 135

原创 Transformer-学习记录

在第三章中，作者详细的论述了编码器和解码器的结构。（一）摘要：Transformer论文中提出，现在主流的序列转换模型都是基于复杂的循环神经网络或者卷积神经网络设计的，这样的设计难以并行，并且需要消耗过长的训练时间以及占用较高的内存，，因此，作者提出了一种新的网络结构，叫Transformer，完全的基于注意力机制设计而成，具有更好的并行性，训练的时间也更少，效果也好于其他的模型。之所以采用SF注意力机制，是因为三个方面的考虑，第一是计算的复杂度，第二是可以并行化的计算量，第三是长距离依赖关系的路径长度。

2023-07-18 17:23:14 55 1

原创 EfficientNetV2-学习记录

作者对之前的V1版本模型进行了研究，结果表明EfficientNet存在部分缺陷，例如，当图像尺寸过大时，训练速度会变慢，深度卷积层在早期层很慢，同层次的扩展在每个阶段并不算是最优的。同时提出了一种新的渐进式学习方法，在早期的训练阶段，用较小的图像进行训练以及弱正则化，后期则随着训练的增强，同时增强图像大小并加强正则化。（一）摘要：在EfficientNetV2论文中，作者提出了新的优化训练速度和参数的方法，感知神经结构搜索和缩放方法，并且提出了一种新的渐进式学习方法以自适应调整正则化。

2023-07-17 17:52:01 134 1

原创 EfficientNetV1-学习记录

改变网络的宽度，深度，图像的分辨率都可以提高精度，但是高分辨率有时会让精度下降，大的深度并不是代表效果一定好，例如ResNet-1000的效果等同于ResNet-101。而EfficientNet-B0的结构基本是在MObileNetV3的结构上提出的，首先是3×3卷积层，接着就是七个MBConv层，MBConv是MobileNetV3中使用的一种卷积块。（一）摘要：EfficientNet论文中提出了一种新的模型缩放方法，以此来平衡网络深度，宽度，分辨率，并带来更好的性能。其中的φ是一个用户指定的系数。

2023-07-17 16:29:57 59 1

原创 ShuffleNetV2-学习记录

作者也提到了目前的一些技术对网络结构是设计并不是都有益处的，例如深度可分离卷积中的逐点卷积会占据大部分的复杂性，ResNext中使用的组卷积在相同计算复杂度的情况下拓展了通道数，但是通道数的增加也使得MAC（内存访问成本）大大增加。在GoogleNet中使用的多线程卷积处理，虽然增加了精准度，但是会降低模型的并行度，因此相应的速度也会减慢。（一）摘要：根据目前市面上几种高效的卷积网络模型提出了两条原则，四项准则，以此为规范更好的设计新的网络结构。（1）使用相对平衡（相同的通道数，逐点卷积）的卷积。

2023-07-17 12:15:09 65 1

原创 ShuffleNet-学习记录

具体更改是，假设存在一个残差网络结构，首先经过1×1的降维，再是3×3的卷积，最后是1×1的升维卷积。首先将1×1的降维卷积层更改为逐点分组卷积层，再接着一个通道重新排序，接着是3×3卷积层，但是去除原来的激活函数，最后是一个1×1的逐点分组卷积层。在以往的模型中，为了在性能和计算成本中得到较好的平衡，大多在网络结构中都添加了1×1卷积层，但是这同时增加了模型的复杂性，而在在小型网络中，反复堆叠的逐点卷积导致通道数量有限，无法满足复杂性约束，这可能会严重影响精度。（二）时间：2018。

2023-07-14 16:07:51 42 1

原创 MobileNetV3-学习记录

新Block:加入了注意力机制，针对得到的特征矩阵，对每一个channel进行池化处理，接着通过两个全连接层得到一个新的量并与先前的特征矩阵相乘，从而得到一个新的特征图。新激活函数：在以往的网络结构中，基本使用的都是Relu6的激活函数，但是在V3版本中，作者使用了一个新的激活函数——H-swish激活函数。它具有更高的精确度，并且计算更加方便。新的耗时层：首先减少了第一个卷积层的卷积核个数（从32减少到了16），因为发现就算减少一半的数量，准确率也与之前差不多，并且能够节约两毫米左右的时间。

2023-07-14 10:47:27 82 1

原创 MobileNetV2-学习记录

首先，作者提到特征信息由高维是可以转向低维的，而在这之中ReLU会一直发挥着激活函数的作用，但是作者采用Linear Bottlenecks，而不使用ReLU的原因就是如果让ReLU去作为激活函数使用的话，结果如果是低通道数目（此处作者举例通道数为2或3），会导致关键信息的缺失（即文中提到的“manifold of interest”），当输出结果为高维时则不会出现这种情况。因此，传统残差是一个两头大中间小的结构，而作者的这个残差是中间大两头小，因此称为逆残差网络。（二）发表时间：2018。

2023-07-13 11:05:43 137 1

原创 MobileNetV1-学习记录

DW卷积：卷积核channel=1,输入特征矩阵的channel=输出矩阵的channel=卷积核的个数。DW卷积后存在一个PW卷积，PW卷积与传统卷积形式类似，通过DW卷积与PW卷积的联合使用，可以大大降低参数量核计算量。传统卷积中，卷积核的channel=输入特征矩阵的卷积channel,卷积核的个数=输出特征矩阵的channel。核心：DW卷积（与PW卷积配合使用）、两个超参数（一个控制输入输出通道数，一个控制输入图像大小的，人为设定）。（三）关键词：轻量级，深度可分离卷积，宽度系数，分辨率系数。

2023-07-12 10:44:37 103 1

原创 ResNet-学习记录

于是作者假设一个表现还不错的浅层网络，里面再加一些层（这些层叫恒等映射，输入与输出保持一致性，比如前面层学的很好，那么我再加一些y=x，输入输出保持一致的层，从理论上讲，虽然深度增加了，但是最差也不会比原来的效果差，因为输入输出基本一致，没什么影响），那么深一点的网络是不应该比浅层网络更差的。1×1卷积核处理，再进行相应的卷积运算，最后在输出时恢复到256层，这样就可以大大减少相应的计算量，因为如果直接是256通道数进去运算，会产生很大的数值，但是改变后去运算，通道数少了，计算量也少了。

2023-07-11 17:04:48 54

原创 GoogleNeT-学习记录

但是作者随后发现这样的结构看着是没问题，但是参数太多了，太大了。但是这样也会带来很多的问题，比如增加深度那么不可避免的会增加参数，而参数越多，越容易过拟合，同时，对于细粒度的数据集，也容易过拟合，同时标注也需要专家来标注（例如，普通人是分不清爱斯基摩雪橇犬和普通雪橇犬的，必须专家才可以来做标注）。作者通过模型集成训练，图像裁剪等多种方法，把top-5错误率（对于一个物体，识别出五个可能性，正确的可能性只要在五个之中，即判定为识别正确）降低到6.67%，相比于其他不做处理，或略微处理，成绩领先颇多。

2023-07-10 17:17:51 101 1

原创 VGG-学习记录

而他是对结构的深度进行了改良和设计，具体内容是连续使用了几个3×3的卷积核去代替AlexNet中的卷积核，而之所以使用3×3的卷积核是因为这是捕捉左/右、上/下、中心概念的最小尺寸。论文中举了一个例子，假设有C个通道，那么改良后的参数个数就是27C*C（3×3（卷积核）×C（通道）×C（卷积核个数）×3（3层卷积）），而如果是7×7的卷积核，就会有49C*C个参数，足足提升了81%（论文原数据，我怎么看都是一半左右，但是作者是这样算的（49-27）/27，有一点讨巧，哈哈）。（二）发表时间：2014。

2023-07-07 18:11:58 126 1

原创 AlexNet-学习记录

本次学习内容基本来自于Alex Krizhevsky,Geoffrey E. Hinton等编写的的《ImageNet Classification with Deep Convolutional Neural Networks》

2023-07-06 16:37:17 127 1

原创 LeNet-5学习记录

本次学习内容基本来自于YANN LECUN等几位教授的《Gradient-Based Learning Applied to Document Recognition》，以及部分LeNet-5讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。

2023-07-05 15:05:30 107

lzf767801的博客