2020年02月_头柱碳只狼

原创 CenterNet 论文笔记

前言本文提出了一种目标表示的新方法——通过bbox的中心点来表示目标，如下图所示。然后通过中心点处的图像特征回归到目标的其它属性，比如目标大小、维度、方向和姿态。这样就把目标检测问题变为关键点估计问题。将输入图像送入一个全卷积网络后，会生成一个heatmap，在heatmap上出现的peak就是目标的中心点，每个peak的图像特征预测出目标的bbox的高和宽。模型训练采用标准的监督学习，in...

2020-02-28 11:30:20 597

原创 RepPoints 论文笔记

前言一直以来，在目标检测中，边界框是处理的基本元素：在图像中先定位目标的边界框，再从边界框中提取特征，最后基于边界框里提取的特征进行目标的识别和推理。但是，基于边界框的目标表示也有一些缺点，它们只提供一个粗略的目标定位，并不完全拟合目标的形状和姿态。此外，从边界框的规则网格中提取的特征可能会受到背景或包含少量语义信息的前景区域的严重影响。这些都会使提取的特征质量变低，从而降低了目标检测的分类性...

2020-02-27 16:23:40 1325

原创 CornerNet 论文笔记

前言本文提出了一种新的one-stage目标检测方法，它没有使用anchor，而是通过bbox的左上角和右下角corner来检测目标。如下图所示，通过一个单一神经网络，为属于同一类别的所有实例的左上corner生成一个heatmap，同理右下corner也有一个heatmap，每个corner还有一个embedding vector，这个embedding负责将属于同一目标的一对儿corner进...

2020-02-26 17:34:00 193

原创 DenseBox 论文笔记

前言本文主要关注如何将FCN应用到目标检测中，提出基于FCN的检测器DenseBox，它不需要生成候选区域，并且可以进行端到端的训练。本文做出的主要贡献为：本文证明，在经过仔细地设计和优化后，一个单一的FCN可以检测不同尺度和较为模糊的目标；通过多任务学习结合landmark定位可以进一步提升检测性能。DenseBox检测系统如上图所示：首先使用图像金字塔（后来演变成特征金字...

2020-02-25 11:12:28 813

原创 Guided Anchoring 论文笔记

前言作者提出设计anchor时的两个准则：aligment——使用卷积特征作为anchor的表示特征，anchor的中心要与特征图中的像素对齐；consistency——在特征图的不同位置，感受野的大小是一致的，因此不同位置anchor的尺度和形状也要保持一致。本文希望得到的是稀疏的、根据位置可变的anchor。作者观察到，图像中的目标并不是均匀分布的，目标的尺度与图像的内容、场景的位...

2020-02-24 17:03:45 483

原创 FoveaBox 论文笔记

前言anchor-based的目标检测方法存在几个缺点：（1） anchor会引入额外的超参数，比如anchor的个数、尺度和长宽比；（2） anchor的存在降低了模型的泛化能力。比如，人脸检测需要的anchor一般都是方形居多，而检测行人需要一些瘦高的anchor；（3）正负样本之间存在极端的不平衡。也有一些方法对anchor做出了一些改进：MetaAnchor通过任意的自定义的pr...

2020-02-23 14:56:01 661

原创 FSAF 论文笔记

前言目标检测时的多尺度问题一直是一个难题。一种方法是将特征金字塔与anchor相结合，深层的特征图分辨率低，得到的anchor尺寸大数量少；浅层的特征图分辨率高，得到的anchor尺寸小数量多。这是由于深层特征图有更多的语义信息，适合检测较大的instance；浅层特征图的细节更精细，适合检测较小的instance。在匹配时，是根据instance box（ground-truth box）与a...

2020-02-22 15:44:38 885

原创 FCOS 论文笔记

前言一些主流的目标检测方法比如Faster R-CNN，SSD，YOLOv3都依赖于一系列预先设定好的anchor，并且有很长一段时间，人们认为anchor是目标检测的关键所在。但是需要注意到，基于anchor的检测器会有以下缺点：anchor的尺度、长宽比和数量对检测性能会有影响，因此在基于anchor的检测器中需要对这些超参数进行仔细地的微调；由于anchor的尺度和长宽比是固定的，检...

2020-02-20 20:45:54 361

原创 M2Det 论文笔记

前言解决目标检测任务中目标实例的尺度变化问题一般有两种方法：图像金字塔（image pyramid），即对输入图像进行一系列的缩放，只在测试时被使用。这种方法会占用大量内存并且计算很复杂；特征金字塔（feature pyramid），训练和测试时都可以使用。与图像金字塔相比，它占用的内存和计算开支都很少。如下图所示，有四种不同构成方式的特征金字塔：在SSD中，独立地利用了主干网络的...

2020-02-19 10:35:31 445

原创 Cascade R-CNN 论文笔记

前言在目标检测中，通常会设定一个IoU阈值来区分正样本和负样本，一般将这个阈值设为0.5。但如果以0.5的阈值来训练检测器，检测器会生成许多noisy bbox。如果增大这个阈值，检测器的性能会下降。原因如下：由于增大了阈值，正样本会减少，在training时会出现过拟合问题。在training时用于训练检测器的阈值，与inference时输入proposal的IoU相差过大。因此本文...

2020-02-17 20:16:55 706

原创 Mask R-CNN 论文笔记

前言目标检测（object detection）是识别目标属于哪个类别并用边界框对每个目标进行定位，也就是把它们“框”起来。如下图（b）所示。语义分割（semantic segmentation）是对每个像素进行分类，而不考虑目标实例。如下图（c）所示。实例分割（instance segmentation）需要先将目标正确地检测出来，然后对每个目标进行精细地分割。如下图（d）所示。它和语义...

2020-02-16 20:46:18 427

原创 RetinaNet 论文笔记

前言现在的目标检测算法主要可以分为两类：two-stage，比如Fast R-CNN，Faster R-CNN，Mask R-CNN。它们首先生成一系列稀疏的候选区域，然后用CNN对每个候选区域进行分类，判断它们是属于前景中的某个类别，还是属于背景。现在这一类方法可以达到很高的精度，但是速度略有不足。one-stage，比如YOLO和SSD。它们对目标的位置、尺度和长宽比进行规则的密集的采...

2020-02-15 16:24:33 555

原创 FPN算法（论文笔记）

前言目前为止都有哪些进行多尺度检测的方法呢？图像金字塔（上图a）。这些“金字塔”是尺度不变的，因为通过改变在金字塔中所属的层级，可以抵消目标尺度的变化。也就是说，将图像转换为不同的尺度，每个尺度对应一个特征图，这些特征图共同组成了图像金字塔。利用图像金字塔进行多尺度检测的好处是，可以生成多尺度特征图，并且所有的特征图都包含充足的语义信息，可以获得较好的检测精度。缺点是计算量大，在训练时会...

2020-02-13 20:58:31 496

原创 YOLOv3（一些总结）

YOLOv3相比YOLOv2，主要有以下几个方面的改变：使用Darknet-53作为基础网络（提取图像特征）；对象分类用逻辑回归取代softmax；借鉴FPN，利用多尺度特征图进行目标检测。1.网络结构YOLOv3采用了Darknet-53作为基础网络，有53个卷积层。它借鉴了ResNet中的残差块的设计，在某些层之间添加“跳层连接”（shortcut connection）。更详细的网络...

2020-02-12 18:11:57 2172

原创 YOLO v2 论文笔记

Better首先说一下YOLO的缺点：一是与Fast R-CNN相比有更多的定位误差；二是与基于region proposal的检测方法相比，YOLO的召回率较低。因此YOLOv2相较于YOLO，是在保持分类精度的情况下提升召回率和定位的准确度。一般来说，使用更大更深的网络或者将多个模型结合起来，能得到更好的性能。但是YOLOv2反其道而行之，它不仅没有扩大网络规模，反而对网络进行了简化，这样可...

2020-02-11 21:18:53 536

原创 R-FCN论文笔记（R-FCN: Object Detection via Region-based Fully Convolutional Networks）

前言较早的目标检测算法，比如SPP-net，Fast R-CNN和Faster R-CNN，它们的网络结构可以通过RoI池化层分为两个子网络：一个是独立于RoI，共享计算的全卷积子网络，其实这部分就是对整个图像进行处理，提取出输入图像的特征图。另一个是RoI-wise子网络，在这个子网络中并不共享计算，也就是对每个RoI（region of interest）进行分类与回归以完成最终的目标检测。...

2020-02-10 18:30:32 536

原创 SSD：Single Shot MultiBox Detector（论文部分翻译+一些总结）

前言目标检测算法可以分为两大类，一类是Faster R-CNN这种的，先生成候选区域，然后对这些候选区域进行分类与回归，这是将目标检测视为一种分类问题。一般这类算法的检测精度较高，但是检测速度有待提升，对于实时监测系统并不适用。另一类是YOLO这种整个检测过程由一个单一神经网络实现的，它将目标检测视为一种回归问题，检测速度虽然有所提升，但是检测精度不如第一类算法。尤其YOLO对于较小目标的检测并...

2020-02-09 21:08:57 1269

原创 YOLO算法（论文部分翻译+一些总结）

前言在之前的目标检测问题中，为了检测一个目标，要在一个测试图像上的不同位置和不同大小的边界框中使用该目标的分类器，判断边界框中是否有该目标，这种方法其实将目标检测当成一种分类问题。如DPM在一整个图像上使用一个均匀滑动的窗口，用分类器在每次滑动的窗口中判断是否有要检测的目标。在R-CNN中做出了一些改进，即用候选区域的方法生成最有可能包含目标的候选框，然后对这些候选框进行分类处理。本文将目标检测...

2020-02-07 17:44:11 1763

原创 Faster R-CNN算法（论文部分翻译+总结）

RPN的结构RPN的输入是一个任意大小的图像，输出是一系列矩形候选区域，并且每个候选区域都有一个objectness score（objectness衡量的是一系列对象类和背景的关系）。为了让RPN与Fast R-CNN目标检测网络共享参数，论文假设两个网络共享一些卷积层。论文研究了ZF模型和VGG模型，在ZF模型中，有5个可共享的卷积层；在VGG模型中，有13个可共享的卷积层。上图是RPN...

2020-02-05 21:24:08 906

原创 Fast R-CNN（论文部分翻译+一些总结）

论文是《Fast R-CNN》Fast R-CNN与R-CNN相比，提升了训练和测试时的速度，并且也提升了检测的精度。它训练的是VGG16网络（在R-CNN那篇论文中，作者也用过这个16层的深度网络来实现R-CNN，以此来观察在不同网络架构上R-CNN的检测性能的不同）。这篇论文中提出了一种单阶段训练算法，该算法可以共同学习分类候选目标和优化其空间定位。在运行时，对一张图片进行目标检测只需0.3...

2020-02-04 22:31:47 597

原创 R-CNN算法（论文部分翻译+个人总结）

背景知识R-CNN的实现步骤？R-CNN的具体设计R-CNN采用了哪些技术？R-CNN的语义分割是怎么实现的？如何训练网络？测试阶段的内容这篇论文做出的贡献有两个方面：（1）可以将高容量的卷积神经网络应用在自底向上的候选区域，以实现对目标的定位和分割。（2）当标注的训练数据稀缺时，在大型辅助数据集（ILSVRC）上进行有监督的预训练，然后在小型数据集（PASCAL）上进行特定领域...

2020-02-03 21:10:47 1097

原创 ImageNet Classification with Deep Convolutional Neural Networks（翻译+总结）

网络架构网络共有8层，五个卷积层和三个全连接层。接下来介绍一下网络架构的一些特点。1.ReLU Nonlinearity标准情况下神经元的输出一般采用tanh或者sigmoid作为激活函数，但是就梯度下降的训练时间而言，这些饱和非线性函数要比非饱和非线性函数f(x) = max(0, x)慢得多，这里将这种非线性单元称为Rectified Linear Units (ReLUs)。带有ReL...

2020-02-02 16:59:35 1440 1

qq_30146937的博客