[Arxiv 2018] Spot the Difference by Object Detection论文笔记

Spot the Difference by Object Detection

由清华大学和JD Group联合产出的技术报告,挂在Arxiv 2018上。感谢作者的分享。

1. Introduction

  文章需要是想找出两张图书封面图片中不同的区域 (change detection),其中一张图片为数字设计版,另一张是传送带上方相机拍摄的图片。图书封面的数字设计版会经常改变,但是销售商打印图书的时候封面数据库中图片可能没有更新,该文章设计了一套设备和对应的算法,提出的方法可以自动核对数字版封面设计与印刷版封面是否相同,这样可以节省人工核对消耗的时间和人力。
  传统的变化区域检测可以使用验证算法实现,基于验证算法的变化区域检测通常需要借助一些关键特征,例如人脸关键点。因为图书封面不存在关键特征。所以不能使用验证算法框架。视频中的变化检测通常需要借助图像序列。遥感图像的变化检测通常需要先对图像进行分割和分类。文本图像的变化检测则需要先检测出图像中的文本。综上,变化区域检测用于不同场景就有不同算法,但这些算法不适用于图书封面变化区域检测。大家来找茬游戏是一种理想化的变化区域检测,但是现实场景更复杂,算法需要在不同光照、色彩及其他噪声环境下保持鲁棒。
  因此,本文提出了基于物体检测算法的变化区域检测,算法可以学习到两张图片之间的关系,并且可以判断候选框内区域在两张图片内是否相同。算法流程如下:第一步是图像对齐,两张图像中包含相机拍摄的图像,因此存在位置偏移,需要对图像进行对齐;第二步是合成训练图像,通过Figure 4中三种方式进行合成,这一步还有个关键的作用是产生物体检测中的GT;第三步是图片的通道堆叠,即两张RGB3通道图像通过通道堆叠变为6通道;第四步是网络训练,网络结构包含主体CNN网络,RPN网络和分类器。RPN网络产生bounding boxes,然后借助分类器判断候选框是否为前景,该概率即为该区域存在差异的概率。
图1 训练数据生成
  该算法相比传统的验证算法可以得到更好的性能,相同性能下也可以得到更快的速度。并且训练数据只依赖于一对样本之间的标签,而不需要单独标注候选框。

2. Q&A

  当时看文章时候还是有点问题的,主要是关于文章说不需要进行Ground-truth的标注,我当时的疑问是那么GT是怎么产生的。后来,在知乎回答上偶然看到了文章二作Yun Ye的一个回答,就在回答下面进行了交流:
Q1: 文章3.2节倒数第二段在说foreground和background。既然没有bounding box的话,那么foreground和background是怎么确定的呢?(我当时问错了,想问的是既然没有ground-truth的标注,前景和背景是怎么确定的)
  对于这个问题我自己能说服我自己的理解是,文章中说了数据合成的时候是用了一个patch去复制粘贴到别的地方等其他两个操作,在这两个操作中实际就产生了一个类似于ground-truth的框,不知道理解的是否正确?如果理解的是正确的话,那么不是合成图像的时候,前景和背景又是怎么确定的呢?
A1: bounding box是生成的,我们当时的方法比较粗暴,直接在一个图片上生成一个bounding box将其内部图像替换成另一个domain的随机patch,就得到一个difference roi作为GT,3.2部分以及fig 4有详述。

Q2: 文章中使用了RPN网络,RPN是根据最后的特征图生成anchor boxes。我看Faster RCNN里面,RPN产生proposal之后,会经过一个NMS进行框筛除。那么您的文章中,有类似的操作吗?如果有的话,NMS里面有一个与Groundtruth去求IOU的过程,那么又回到第一个问题中,GT是怎么确定的呢?
A2: 可以有这一步,不过具体到我们文章中的那种需求,就是图书封面差异,是不需要的,因为如果IOU较大就直接标注成一个了。

Q3: 我理解的网络结构最后的分类器是对于RPN产生的proposal的分类,如果是正确的话,那么图9中给出的概率是什么呢?是分成same或者different的概率吗?如果是这么个二分类的话,那么是如何定义RPN产生的proposal的标签的呢?
A3: 你的理解是对的,其实就是一个background/object的二分类检测问题,核心在于将判断图像差异转化为difference region detection,换成任何一种检测框架按理说都可以,产生标签因为是synthetic sample,所以自然就有标签了。

   感谢Yun Ye的回答。

3. Future Work

  这篇文章感觉不是个很典型的CV类的文章,作者自己也说了只是技术报告。该文章是很好的技术报告,很详细易懂。如果非要鸡蛋里挑骨头,假设文章想投CV类会议,我个人觉得文章方面有以下几点可以改进(个人观点,欢迎友好交流,喷子绕行):
(1)文章有个较大的问题是没有公开数据集的比较结果,并且也没有量化的比较结果,当然Figure 8里有一个AUC指标,但是像传统CV类文章中数字化表格的结果可能更显著一些。
(2)文章Algorithm需要再整理一下。这篇文章题目是说通过物体检测方法去做变化区域检测。那么在Algorithm里可能需要重点突出一下怎么通过物体检测方法去做,相关流程可以一带而过。文中的Algorithm里把重点放在了合成数据,我第一遍看文章是有点疑惑的,感觉这块也没啥东西啊,为啥花那么大篇幅去说呢?跟作者交流之后才知道,这块确实很重要,因为文章的基本结构都是已有技术,那么如何产生GT而避免人为标注就是该文章一个重要工作。而数据合成的过程也是产生GT的过程。所以我觉得可以在3.2一开始说这块工作motivation的时候就跟物体检测联系上,而不是从收集数据角度去说。
(3)文中方法和其它方法对比的时候,4.3.5中有一句话是说其它传统方法只能找到global的区别,而文中方法可以找到local的区别,其实理解起来没有难度。但是光靠Figure 8不能很充分的解释这个论点。我觉得可以增加一些传统方法的可视化结果,这样方便更好的对比。
(4)文章有少数语病和拼写错误。例如:4.3.5节中有:”The relation between two images are leaned from the beginning”。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值