[Arxiv 2018] Spot the Difference by Object Detection论文笔记

最新推荐文章于 2023-03-14 15:52:19 发布

RainbowSun1102

最新推荐文章于 2023-03-14 15:52:19 发布

阅读量449

点赞数 3

分类专栏：论文阅读 Change Detection 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41153216/article/details/105827058

版权

论文阅读同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

Change Detection

1 篇文章 0 订阅

订阅专栏

文章目录

Spot the Difference by Object Detection

Spot the Difference by Object Detection

由清华大学和JD Group联合产出的技术报告，挂在Arxiv 2018上。感谢作者的分享。

1. Introduction

文章需要是想找出两张图书封面图片中不同的区域 (change detection)，其中一张图片为数字设计版，另一张是传送带上方相机拍摄的图片。图书封面的数字设计版会经常改变，但是销售商打印图书的时候封面数据库中图片可能没有更新，该文章设计了一套设备和对应的算法，提出的方法可以自动核对数字版封面设计与印刷版封面是否相同，这样可以节省人工核对消耗的时间和人力。
传统的变化区域检测可以使用验证算法实现，基于验证算法的变化区域检测通常需要借助一些关键特征，例如人脸关键点。因为图书封面不存在关键特征。所以不能使用验证算法框架。视频中的变化检测通常需要借助图像序列。遥感图像的变化检测通常需要先对图像进行分割和分类。文本图像的变化检测则需要先检测出图像中的文本。综上，变化区域检测用于不同场景就有不同算法，但这些算法不适用于图书封面变化区域检测。大家来找茬游戏是一种理想化的变化区域检测，但是现实场景更复杂，算法需要在不同光照、色彩及其他噪声环境下保持鲁棒。
因此，本文提出了基于物体检测算法的变化区域检测，算法可以学习到两张图片之间的关系，并且可以判断候选框内区域在两张图片内是否相同。算法流程如下：第一步是图像对齐，两张图像中包含相机拍摄的图像，因此存在位置偏移，需要对图像进行对齐；第二步是合成训练图像，通过Figure 4中三种方式进行合成，这一步还有个关键的作用是产生物体检测中的GT；第三步是图片的通道堆叠，即两张RGB3通道图像通过通道堆叠变为6通道；第四步是网络训练，网络结构包含主体CNN网络，RPN网络和分类器。RPN网络产生bounding boxes，然后借助分类器判断候选框是否为前景，该概率即为该区域存在差异的概率。
图1 训练数据生成
该算法相比传统的验证算法可以得到更好的性能，相同性能下也可以得到更快的速度。并且训练数据只依赖于一对样本之间的标签，而不需要单独标注候选框。

2. Q&A

当时看文章时候还是有点问题的，主要是关于文章说不需要进行Ground-truth的标注，我当时的疑问是那么GT是怎么产生的。后来，在知乎回答上偶然看到了文章二作Yun Ye的一个回答，就在回答下面进行了交流：
Q1: 文章3.2节倒数第二段在说foreground和background。既然没有bounding box的话，那么foreground和background是怎么确定的呢？（我当时问错了，想问的是既然没有ground-truth的标注，前景和背景是怎么确定的）
对于这个问题我自己能说服我自己的理解是，文章中说了数据合成的时候是用了一个patch去复制粘贴到别的地方等其他两个操作，在这两个操作中实际就产生了一个类似于ground-truth的框，不知道理解的是否正确？如果理解的是正确的话，那么不是合成图像的时候，前景和背景又是怎么确定的呢？
A1: bounding box是生成的，我们当时的方法比较粗暴，直接在一个图片上生成一个bounding box将其内部图像替换成另一个domain的随机patch，就得到一个difference roi作为GT，3.2部分以及fig 4有详述。

Q2: 文章中使用了RPN网络，RPN是根据最后的特征图生成anchor boxes。我看Faster RCNN里面，RPN产生proposal之后，会经过一个NMS进行框筛除。那么您的文章中，有类似的操作吗？如果有的话，NMS里面有一个与Groundtruth去求IOU的过程，那么又回到第一个问题中，GT是怎么确定的呢？
A2: 可以有这一步，不过具体到我们文章中的那种需求，就是图书封面差异，是不需要的，因为如果IOU较大就直接标注成一个了。

Q3: 我理解的网络结构最后的分类器是对于RPN产生的proposal的分类，如果是正确的话，那么图9中给出的概率是什么呢？是分成same或者different的概率吗？如果是这么个二分类的话，那么是如何定义RPN产生的proposal的标签的呢？
A3: 你的理解是对的，其实就是一个background/object的二分类检测问题，核心在于将判断图像差异转化为difference region detection，换成任何一种检测框架按理说都可以，产生标签因为是synthetic sample，所以自然就有标签了。

感谢Yun Ye的回答。

3. Future Work

这篇文章感觉不是个很典型的CV类的文章，作者自己也说了只是技术报告。该文章是很好的技术报告，很详细易懂。如果非要鸡蛋里挑骨头，假设文章想投CV类会议，我个人觉得文章方面有以下几点可以改进（个人观点，欢迎友好交流，喷子绕行）：
（1）文章有个较大的问题是没有公开数据集的比较结果，并且也没有量化的比较结果，当然Figure 8里有一个AUC指标，但是像传统CV类文章中数字化表格的结果可能更显著一些。
（2）文章Algorithm需要再整理一下。这篇文章题目是说通过物体检测方法去做变化区域检测。那么在Algorithm里可能需要重点突出一下怎么通过物体检测方法去做，相关流程可以一带而过。文中的Algorithm里把重点放在了合成数据，我第一遍看文章是有点疑惑的，感觉这块也没啥东西啊，为啥花那么大篇幅去说呢？跟作者交流之后才知道，这块确实很重要，因为文章的基本结构都是已有技术，那么如何产生GT而避免人为标注就是该文章一个重要工作。而数据合成的过程也是产生GT的过程。所以我觉得可以在3.2一开始说这块工作motivation的时候就跟物体检测联系上，而不是从收集数据角度去说。
（3）文中方法和其它方法对比的时候，4.3.5中有一句话是说其它传统方法只能找到global的区别，而文中方法可以找到local的区别，其实理解起来没有难度。但是光靠Figure 8不能很充分的解释这个论点。我觉得可以增加一些传统方法的可视化结果，这样方便更好的对比。
（4）文章有少数语病和拼写错误。例如：4.3.5节中有：”The relation between two images are leaned from the beginning”。