目标检测论文笔记 2019.11


初入门目标检测,近两个月看的一些论文笔记汇总。
尽量用简单的语言概括论文的思想,提出highlight,具体实现细节参考各论文。


General

《MoCo: Momentum Contrast for Unsupervised Visual Representation Learning 》2019

阅读日期:2019.11.21

Highlight

MOCO

  • unsupuvised visual representation learning
  • buiding large and consistent dictionary
    • Dictionary as Queue: 解耦dict大小与mini-batch大小,使得dict可以足够大,不受制于内存
    • Momentum update: 逐渐更新key encoder的模型参数,保持queue中keys的一致性
  • shuffling BN:多块GPU各自进行BN。在key_encoder进行编码前,先shuffle minibatch,编码完后shuffle back,而query_encoder不进行shuffle,保证两者进行BN用的batch信息不来自同一组batch,避免intra-batch信息泄漏,使模型过于容易找到一个low-loss solution,而representation的提取却不够general.

算法流程

  1. query-encoder 和 key-encoder 初始化为相同的网络

  2. 对于每个minibatch,对图像做两次随机增强,分别用两个encoder进行编码(生成queries和keys),keys不计算梯度

  3. 将当前batch对应图片生成的key作为正例(1个),Queue中的所有keys作为负例,计算交叉熵损失

contrastive loss: similarity of sample pairs in representation space

L q = − l o g e x p ( q ⋅ k + / τ ) ∑ i = 0 K e x p ( q ⋅ k i / τ ) L_q = -log{exp(q·k_+/\tau) \over \sum_{i=0}^K exp(q·k_i/\tau)} Lq=logi=0Kexp(qki/τ)exp(qk+/τ)

  1. back propagation 更新query-encoder的模型参数, momentum update 更新key-encoder

  2. 更新Queue(Dictionary): enqueue current minibatch, dequeue the earliest minibatch


Instance Segmentation

《Mask RCNN》2018

阅读日期:2019.11.22

Highlight

  • 在faster-RCNN上做了微小改动,添加一个head用于预测binary mask,实现实例分割,5FPS。还可以被拓展用于keypoint检测任务,把每个关键点作为一个one-hot mask.

  • 提出RoI Align,通过双线性插值,避免量化,使提取的特征更好地保持原图位置信息,这一点对生成准确的mask非常重要,而分类任务则对位置信息更鲁棒一些。

  • 解耦classification和segmentation,对每个类别都分别预测一个binary mask,避免类别竞争

    Models Per pixel Loss
    解耦 Mask RCNN sigmoid BCE
    竞争 traditional FCN
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值