Combining Compositional Models and Deep Networks For Robust Object Classification under Occlusion阅读

最新推荐文章于 2021-03-29 20:46:45 发布

取名太麻烦了

最新推荐文章于 2021-03-29 20:46:45 发布

阅读量463

点赞数 4

文章标签：深度学习

原文链接：https://arxiv.org/abs/1905.11826v4

版权

这是一篇 2020 IEEE Winter Conference on Applications of Computer Vision (WACV)的论文
论文地址：https://arxiv.org/abs/1905.11826v4
该论文其实还有两篇后续工作，分别是实现端到端的遮挡图像分类和遮挡物体检测，有兴趣的可以参考：
Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion
https://arxiv.org/abs/2003.04490
Robust Object Detection under Occlusion with
Context-Aware CompositionalNets
https://arxiv.org/abs/2005.11643v1
论文主要解决图像中存在遮挡时的分类任务，如下图中的公交车被马赛克遮挡，一般的深度神经网络会错误地分类
在这里插入图片描述
组合模型从人类视觉系统考虑，通过观察物体的组成部分来识别图像

问题建模：
首先给出一些符号的定义：

有了这些定义，B的生成概率模型就可以表示为：

这里作者假设F上每个点处的特征向量之间是独立的，式中的a_p，k，y 代表对于类别y，在特征图上f_p 与字典d_k 的余弦距离小于某个阈值的概率。为了方便理解，现在考虑一张正常图像（没有旋转这些操作）的左上角部分，其对应的f_p 与自行车轮胎d_轮胎这个“词”之间的余弦距离应该是很大的，那么对应的a_{p，轮胎，y} 这个概率应该很小。

但是对于实际中的图像还存在一些问题，那就是在不同的视角下a_p，k，y 的分布可能是不一样的，举个栗子：
在这里插入图片描述
在上图中的公交车图像中，由于视角的不同，公交车每个部分出现在图中的位置也不相同，比如说车头出现的位置。这时候就不能用一个模型就完事了，需要对多视角进行建模，如下：

其中v^m 代表不同的视角，这样公式1中的a_p，k，y 就变为了a_pkym ，注意对一张图来说只能考虑一个视角。

最后对遮挡进行建模，这里作者假设：对于图像上的一个区域，该区域要么属于前景，要么属于背景（遮挡和其他背景），基于这个假设，对遮挡建模如下：
在这里插入图片描述
其中前一个条件概率则是博客中的第二个公式，后面一个条件概率则是f_p为遮挡或背景的概率，z_p 属于{0，1}，为1时代表非遮挡，为0时，代表遮挡。
遮挡概率建模为：

这两个表达式的意思是，对于J张不包含分类物体（也就是说图像只存在背景）的图像计算B（前面定义中的B，D已知），表示为b_j ，然后对b_j 取一个平均，得到背景分量出现的概率，这里理解得不是很好，我的理解是字典D中其实也包含了背景的”词“，d_背景i 。

以上，对与参数a_p,k,y,m ，可以用最大似然估计的方法计算出。

最后，对于一张图像的分类结果，需要综合考虑DCNN的输出和遮挡模型的输出：
在这里插入图片描述
如果DCNN的分类置信度小于某个阈值，那么最后的分类结果为遮挡模型的分类结果，遮挡模型的分类结果目的是选择y，使得条件概率最大，B是已知的，可以通过与字典D匹配计算得到；相反，如果DCNN的输出有很高的置信度，那么就相信DCNN判断正确。