Combining Compositional Models and Deep Networks For Robust Object Classification under Occlusion阅读

这是一篇 2020 IEEE Winter Conference on Applications of Computer Vision (WACV)的论文
论文地址:https://arxiv.org/abs/1905.11826v4
该论文其实还有两篇后续工作,分别是实现端到端的遮挡图像分类和遮挡物体检测,有兴趣的可以参考:
Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion
https://arxiv.org/abs/2003.04490
Robust Object Detection under Occlusion with
Context-Aware CompositionalNets
https://arxiv.org/abs/2005.11643v1
论文主要解决图像中存在遮挡时的分类任务,如下图中的公交车被马赛克遮挡,一般的深度神经网络会错误地分类
在这里插入图片描述
组合模型从人类视觉系统考虑,通过观察物体的组成部分来识别图像
在这里插入图片描述
问题建模:
首先给出一些符号的定义:
在这里插入图片描述
有了这些定义,B的生成概率模型就可以表示为:
在这里插入图片描述
这里作者假设F上每个点处的特征向量之间是独立的,式中的ap,k,y 代表对于类别y,在特征图上fp 与字典dk 的余弦距离小于某个阈值的概率。为了方便理解,现在考虑一张正常图像(没有旋转这些操作)的左上角部分,其对应的fp 与自行车轮胎d轮胎 这个“词”之间的余弦距离应该是很大的,那么对应的ap,轮胎,y 这个概率应该很小。

但是对于实际中的图像还存在一些问题,那就是在不同的视角下ap,k,y 的分布可能是不一样的,举个栗子:
在这里插入图片描述
在上图中的公交车图像中,由于视角的不同,公交车每个部分出现在图中的位置也不相同,比如说车头出现的位置。这时候就不能用一个模型就完事了,需要对多视角进行建模,如下:
其中
其中vm 代表不同的视角,这样公式1中的ap,k,y 就变为了apkym ,注意对一张图来说只能考虑一个视角。

最后对遮挡进行建模,这里作者假设:对于图像上的一个区域,该区域要么属于前景,要么属于背景(遮挡和其他背景),基于这个假设,对遮挡建模如下:
在这里插入图片描述
其中前一个条件概率则是博客中的第二个公式,后面一个条件概率则是fp为遮挡或背景的概率,zp 属于{0,1},为1时代表非遮挡,为0时,代表遮挡。
遮挡概率建模为:
在这里插入图片描述
在这里插入图片描述
这两个表达式的意思是,对于J张不包含分类物体(也就是说图像只存在背景)的图像计算B(前面定义中的B,D已知),表示为bj ,然后对bj 取一个平均,得到背景分量出现的概率,这里理解得不是很好,我的理解是字典D中其实也包含了背景的”词“,d背景i

以上,对与参数ap,k,y,m ,可以用最大似然估计的方法计算出。

最后,对于一张图像的分类结果,需要综合考虑DCNN的输出和遮挡模型的输出:
在这里插入图片描述
如果DCNN的分类置信度小于某个阈值,那么最后的分类结果为遮挡模型的分类结果,遮挡模型的分类结果目的是选择y,使得条件概率最大,B是已知的,可以通过与字典D匹配计算得到;相反,如果DCNN的输出有很高的置信度,那么就相信DCNN判断正确。

由于之前没写过博客,加上个人理解能力有限,错误之处希望多多批评指正^ M ^。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值