这是一篇 2020 IEEE Winter Conference on Applications of Computer Vision (WACV)的论文
论文地址:https://arxiv.org/abs/1905.11826v4
该论文其实还有两篇后续工作,分别是实现端到端的遮挡图像分类和遮挡物体检测,有兴趣的可以参考:
Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion
https://arxiv.org/abs/2003.04490
Robust Object Detection under Occlusion with
Context-Aware CompositionalNets
https://arxiv.org/abs/2005.11643v1
论文主要解决图像中存在遮挡时的分类任务,如下图中的公交车被马赛克遮挡,一般的深度神经网络会错误地分类
组合模型从人类视觉系统考虑,通过观察物体的组成部分来识别图像
问题建模:
首先给出一些符号的定义:
有了这些定义,B的生成概率模型就可以表示为:
这里作者假设F上每个点处的特征向量之间是独立的,式中的ap,k,y 代表对于类别y,在特征图上fp 与字典dk 的余弦距离小于某个阈值的概率。为了方便理解,现在考虑一张正常图像(没有旋转这些操作)的左上角部分,其对应的fp 与自行车轮胎d轮胎 这个“词”之间的余弦距离应该是很大的,那么对应的ap,轮胎,y 这个概率应该很小。
但是对于实际中的图像还存在一些问题,那就是在不同的视角下ap,k,y 的分布可能是不一样的,举个栗子:
在上图中的公交车图像中,由于视角的不同,公交车每个部分出现在图中的位置也不相同,比如说车头出现的位置。这时候就不能用一个模型就完事了,需要对多视角进行建模,如下:
其中vm 代表不同的视角,这样公式1中的ap,k,y 就变为了apkym ,注意对一张图来说只能考虑一个视角。
最后对遮挡进行建模,这里作者假设:对于图像上的一个区域,该区域要么属于前景,要么属于背景(遮挡和其他背景),基于这个假设,对遮挡建模如下:
其中前一个条件概率则是博客中的第二个公式,后面一个条件概率则是fp为遮挡或背景的概率,zp 属于{0,1},为1时代表非遮挡,为0时,代表遮挡。
遮挡概率建模为:
这两个表达式的意思是,对于J张不包含分类物体(也就是说图像只存在背景)的图像计算B(前面定义中的B,D已知),表示为bj ,然后对bj 取一个平均,得到背景分量出现的概率,这里理解得不是很好,我的理解是字典D中其实也包含了背景的”词“,d背景i 。
以上,对与参数ap,k,y,m ,可以用最大似然估计的方法计算出。
最后,对于一张图像的分类结果,需要综合考虑DCNN的输出和遮挡模型的输出:
如果DCNN的分类置信度小于某个阈值,那么最后的分类结果为遮挡模型的分类结果,遮挡模型的分类结果目的是选择y,使得条件概率最大,B是已知的,可以通过与字典D匹配计算得到;相反,如果DCNN的输出有很高的置信度,那么就相信DCNN判断正确。
由于之前没写过博客,加上个人理解能力有限,错误之处希望多多批评指正^ M ^。