论文笔记
楚沐向阳
这个作者很懒,什么都没留下…
展开
-
论文笔记-You Only Look Once:Unified,Real-Time Object Detection
摘要:YOLO的统一架构可以达到每秒45帧的速度,更小一点的版本,Fast YOLO,可以达到155fps。相比于最先进的检测系统,YOLO的检测错误更多,但是对于图片背景预测的准确率更高。1. 简单介绍在YOLO出现之前,检测系统都是基于对象分类来进行对象检测。为了检测一个对象,基于分类的检测系统都是先对对象进行分类,然后在大量不同的位置和尺寸窗口上来评估和测试这个对象分类的准确性。...翻译 2018-06-15 20:31:55 · 811 阅读 · 0 评论 -
论文笔记—Focal Loss for Dense Object Detection
1. 介绍当前最先进的目标检测网络都是两级的,基于推荐区域的。第一级产生推荐区域的坐标,第二级进行分类和检测。这一架构的网络主要有R-CNN,Fast R-CNN,Faster R-CNN等。现在的一些采用一级的网络,如YOLO,SSD等,与最先进的采用两级的网络相比,速度更快,但是准确度可能就稍微差一些。因此本文作者提出一种采用一级架构的网络,该网络具有一级网络的速度,同时具有二级网络的...原创 2018-07-19 22:40:48 · 353 阅读 · 0 评论 -
论文笔记-Mask R-CNN
本论文由FAIR的Kaiming He等联合创作。1. 介绍Mask R-CNN可以同时执行目标检测和实例分割任务,下图是它的架构: Mask R-CNN是在Faster R-CNN上扩展出了一个并行分支,用来进行实力分割任务,原分支继续执行边界框预测任务。用来进行实例分割的分支就是一个作用于每一个ROI的简单的FCN。2. 相关工作R-CNNR-CNN在每一张图...原创 2018-07-13 21:32:07 · 450 阅读 · 0 评论 -
论文笔记-R-FCN:Object Detection via Region-based Fully Convolutional Networks
分类任务需要网络的转换不变性,目标检测任务需要网络的转换可变性。因为分类任务的目标对象是整张图像,一张图像上只有一个对象。检测任务需要适应每张图像上的多个尺寸不一的对象。对于目标检测网络而言,因其主干网络都是应用于分类任务的网络,因此在目标检测网络中就存在转换不变性和转换可变性的矛盾。作者为了解决这一问题,提出了R-FCN网络。下图为R-FCN的结构图: 作者通过一些指定的卷积层块,使卷积输...原创 2018-07-24 20:40:36 · 436 阅读 · 0 评论 -
论文笔记-DetNet: A Backbone network for Object Detection
1. 介绍目标检测是计算机视觉领域最基础的问题。目前的目标检测网络主要分为一级网络,YOLO’,SSD,RetinaNet等;二级网络,Fast R-CNN,Faster R-CNN,Mask R-CNN,R-FCN等。但是这些网络使用的骨架网络都是在ImageNet分类任务上预训练的网络,因此作者想提出一种基于目标检测任务预训练的骨架网络,名为DetNet。2. DetNet...原创 2018-07-24 15:17:52 · 855 阅读 · 0 评论 -
论文笔记-Feature Pyramid Networks for Object Detection
本文作者提出了一种特征金字塔网络(FPN),可以作为一种通用的特征提取器用于多个应用。作者将FPN与Faster R-CNN结合,在COCO2016上运行结果超过了现有的单一模型的表现。1. 介绍图像金字塔的优势就是可以提供一个多尺寸的特征表征,每一层级的语义更强。下图是最近的一些金字塔层级的网络架构: (a)图像金字塔的模型。每一尺寸图像连接一卷积网络,输出多个尺寸的特征映射,...原创 2018-07-03 11:35:29 · 352 阅读 · 0 评论 -
论文笔记-Tracking Emerges by Colorizing Videos
1. 介绍可视化追踪是视频分析中不可缺少的一部分。然而,为了提高表现而收集大量的数据会花费很高的代价,并不实际。因此,本文提出了一种在大量原始无标签数据上进行追踪的方法。我们将视频着色视为一种自监督学习问题。这种方法并不是直接预测灰度级视频帧的指定区域的颜色,而是学习将一个彩色参考帧的指定区域与一个灰度帧的区域建立联系,然后将参考帧指定区域的颜色复制到灰度帧的相应区域。这是一种迂回的方式,...翻译 2018-07-02 13:42:39 · 1882 阅读 · 0 评论 -
论文笔记-YOLOv3: An Incremental Improvement
1. YOLOv3的改进1.1 边界框预测YOLOv2的边界框预测引入了anchor boxes。每一个边界框由网络预测出的4个坐标表示,分别为tx,ty,tw,th。网格相对图像左上角的距离为(cx,cy),真实边界框的宽度和高度为pw,ph,那么预测边界框的坐标就为: YOLOv3使用logistic回归来预测每一个边界框的对象分数。如果一个真实边界框交叠一个真实对象的面积超...翻译 2018-06-18 21:12:02 · 975 阅读 · 0 评论 -
论文笔记-YOLO9000:Better,Faster,Stronger
1. 简单介绍目前,用于目标检测的数据集的体量远远小于用于图像分类的数据集的体量,因为给目标检测数据集人工标记标签要比为分类数据集标记标签要昂贵的多。2. BetterYOLOv1相对于Fast R-CNN来说,在对象定位上有更大的误差;相对基于推荐区域的方法,YOLO的召回率也更低。因此,YOLOv2版本在保持分类精度的基础上,要着重提高召回率和定位精度。 作者在YOLOv...翻译 2018-06-16 22:37:25 · 420 阅读 · 0 评论 -
论文笔记-SNIPER:Efficient Multi-Scale Training
1. 介绍目前的目标检测架构都是对输入图像的所有像素进行操作,从而产生proposals等,当采用多尺寸的图像金字塔时,所需的存储空间很大,在训练时,单一GPU上能训练的图像数量很小(取决于GPU的显存和图像的分辨率),这样就造成了batch size很小,从而使训练时间很长。因此作者提出了一种新的训练思路:先粗略定位一下正负例所在的区域,然后以该区域内的像素信息作为卷积网络的输入,再精确检测...原创 2018-07-30 21:32:04 · 3083 阅读 · 1 评论