场景解析和语义分割区别_图像语义分割(13)-OCNet: 用于场景解析的目标语义网络...

OCNet是一种针对场景解析的深度学习模型,通过目标语义池化策略改善语义分割的准确性。论文指出,现有方法如PPM和ASPP在处理像素归属关系时存在局限,而OCNet利用像素集合信息来确定单个像素的标签,提高了空间准确性。OCNet的扩展包括Pyramid Object Context和Atrous Spatial Pyramid Object Context,进一步增强了模型的性能。
摘要由CSDN通过智能技术生成

282a7250f7ac2bb5a4236cfe9e492303.png

论文地址 :OCNet: Object Context Network for Scene Parsing
pytorch实现:PkuRainBow/OCNet.pytorch

1. 摘要

论文侧重于语义分割中的语义聚集策略,即不再逐像素的进行预测而是将相似的像素点聚集后进行语义分割,由此提出了目标语义池化策略,它通过利用属于同一物体的像素集合的信息来得到某一个该物体包含的像素的标签,其中像素集合被称为目标语义。
具体实现受到自注意力机制的影响包含两个步骤:1)计算单个像素和所有像素之间的相似性从而得到目标语义和每一个像素的映射;2)得到目标像素的标签。结果比现有的语义聚集策略例如PPM和ASPP这些不区别单一像素和目标语义之间是否存在属于关系的策略更加准确。

2. 简介

场景解析是计算机视觉中的基础议题并且对于诸如自动驾驶和虚拟现实等任务非常关键,在全卷积网络的方法之后,多种基于深度卷积神经网络的方法已经用于场景解析,目前主要包括两种主要的方法,第一种是通过提升特征图的分辨率来提升空间上的准确率,比如空洞卷积,另一种是利用语义信息来替身像素预测的鲁棒性,后者是该论文的工作方向。
现有的方法中,PSPNet将特征图分为多个区域,每个区域中的所有像素被视为这个区域的语义,ASPP则通过不同的空洞率来对多种像素进行采样,空间语义是属于不同目标的像素的混合,标签预测效果也受此局限。
图片中每一个像素的标签的是这个像素所在的物体的标签,受此影响,论文提出新颖的目标语义池化以根据目标语义来聚集信息,首先为每个像素计算一个相似性映射,相似性分数表明了像素和像素所在物体的标签一致的可能性高低,称为目标语义映射,如下图所示:

c882ad39e37af14e5d35fb50ce20262d.png

论文还提出了两个扩展,一个是Pyramid object context,其中空间金字塔的每个区域都进行一次目标语义池化;另一个是Atrous spatial pyramid object context,结合了ASPP和OC池化。

8946df393f39a831a06048141f1dd83b.png

Pyramid Object Context. 将图像在四个缩放尺度上分成若干区域:1 x 1,2 x 2,3 x 3和6 x 6,然后在每个尺度上分别使用目标语义池化来更新特征图,然后结合。金字塔目标语义模块能够去除空间上相隔较远的像素的影响并加强相隔较近的像素的作用(属于不同类别的)。最终和输入特征图结合,这个方法被称为 Pyramid-OC,如下图所示:

3123fc64c366dbea08bf45d2b31016e9.png

Comination with ASPP 如下图所示:

8a9a3e23885e469d108a880ef2627247.png

网络架构,实验部分 结论 略欢迎关注 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]

e2a4131608323347c5f790f260e77233.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值