初入门目标检测,近两个月看的一些论文笔记汇总。
尽量用简单的语言概括论文的思想,提出highlight,具体实现细节参考各论文。
文章目录
-
- General
- Instance Segmentation
- Object detection
-
- Pipeline
-
- 《selective search for object recognition》2012
- 《R-CNN》2014 /《Fast R-CNN》2015 /《Faster R-CNN》2015 /《R-FCN》2016
- 《Cascade R-CNN: delving into high quality object detection》
- 《Grid R-CNN》
- 《YOLO: you only look once》2016
- 《YOLO v2》2016 / 《YOLO v3》2018
- 《SSD:single shot multibox detector》2016
- 《CornerNet: detecting objects as paired keypoints》2019
- 《CenterNet: Objects as points》2019
- 《FCOS: Fully convolutionall one-stage object detection》2019
- Tricks
General
《MoCo: Momentum Contrast for Unsupervised Visual Representation Learning 》2019
阅读日期:2019.11.21
Highlight
- unsupuvised visual representation learning
- buiding large and consistent dictionary
- Dictionary as Queue: 解耦dict大小与mini-batch大小,使得dict可以足够大,不受制于内存
- Momentum update: 逐渐更新key encoder的模型参数,保持queue中keys的一致性
- shuffling BN:多块GPU各自进行BN。在key_encoder进行编码前,先shuffle minibatch,编码完后shuffle back,而query_encoder不进行shuffle,保证两者进行BN用的batch信息不来自同一组batch,避免intra-batch信息泄漏,使模型过于容易找到一个low-loss solution,而representation的提取却不够general.
算法流程
-
query-encoder 和 key-encoder 初始化为相同的网络
-
对于每个minibatch,对图像做两次随机增强,分别用两个encoder进行编码(生成queries和keys),keys不计算梯度
-
将当前batch对应图片生成的key作为正例(1个),Queue中的所有keys作为负例,计算交叉熵损失
contrastive loss: similarity of sample pairs in representation space
L q = − l o g e x p ( q ⋅ k + / τ ) ∑ i = 0 K e x p ( q ⋅ k i / τ ) L_q = -log{exp(q·k_+/\tau) \over \sum_{i=0}^K exp(q·k_i/\tau)} Lq=−log∑i=0Kexp(q⋅ki/τ)exp(q⋅k+/τ)
-
back propagation 更新query-encoder的模型参数, momentum update 更新key-encoder
-
更新Queue(Dictionary): enqueue current minibatch, dequeue the earliest minibatch
Instance Segmentation
《Mask RCNN》2018
阅读日期:2019.11.22
Highlight
-
在faster-RCNN上做了微小改动,添加一个head用于预测binary mask,实现实例分割,5FPS。还可以被拓展用于keypoint检测任务,把每个关键点作为一个one-hot mask.
-
提出RoI Align,通过双线性插值,避免量化,使提取的特征更好地保持原图位置信息,这一点对生成准确的mask非常重要,而分类任务则对位置信息更鲁棒一些。
-
解耦classification和segmentation,对每个类别都分别预测一个binary mask,避免类别竞争
Models Per pixel Loss 解耦 Mask RCNN sigmoid BCE 竞争 traditional FCN