场景解析和语义分割区别_图像语义分割(13)-OCNet: 用于场景解析的目标语义网络...

最新推荐文章于 2023-12-27 18:03:05 发布

冰镐供应商

最新推荐文章于 2023-12-27 18:03:05 发布

阅读量356

点赞数 1

文章标签：场景解析和语义分割区别

本文链接：https://blog.csdn.net/weixin_35558751/article/details/112564352

版权

OCNet是一种针对场景解析的深度学习模型，通过目标语义池化策略改善语义分割的准确性。论文指出，现有方法如PPM和ASPP在处理像素归属关系时存在局限，而OCNet利用像素集合信息来确定单个像素的标签，提高了空间准确性。OCNet的扩展包括Pyramid Object Context和Atrous Spatial Pyramid Object Context，进一步增强了模型的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：OCNet: Object Context Network for Scene Parsing
pytorch实现：PkuRainBow/OCNet.pytorch

1. 摘要

论文侧重于语义分割中的语义聚集策略，即不再逐像素的进行预测而是将相似的像素点聚集后进行语义分割，由此提出了目标语义池化策略，它通过利用属于同一物体的像素集合的信息来得到某一个该物体包含的像素的标签，其中像素集合被称为目标语义。
具体实现受到自注意力机制的影响包含两个步骤：1)计算单个像素和所有像素之间的相似性从而得到目标语义和每一个像素的映射；2)得到目标像素的标签。结果比现有的语义聚集策略例如PPM和ASPP这些不区别单一像素和目标语义之间是否存在属于关系的策略更加准确。

2. 简介

场景解析是计算机视觉中的基础议题并且对于诸如自动驾驶和虚拟现实等任务非常关键，在全卷积网络的方法之后，多种基于深度卷积神经网络的方法已经用于场景解析，目前主要包括两种主要的方法，第一种是通过提升特征图的分辨率来提升空间上的准确率，比如空洞卷积，另一种是利用语义信息来替身像素预测的鲁棒性，后者是该论文的工作方向。
现有的方法中，PSPNet将特征图分为多个区域，每个区域中的所有像素被视为这个区域的语义，ASPP则通过不同的空洞率来对多种像素进行采样，空间语义是属于不同目标的像素的混合，标签预测效果也受此局限。
图片中每一个像素的标签的是这个像素所在的物体的标签，受此影响，论文提出新颖的目标语义池化以根据目标语义来聚集信息，首先为每个像素计算一个相似性映射，相似性分数表明了像素和像素所在物体的标签一致的可能性高低，称为目标语义映射，如下图所示：

论文还提出了两个扩展，一个是Pyramid object context，其中空间金字塔的每个区域都进行一次目标语义池化；另一个是Atrous spatial pyramid object context，结合了ASPP和OC池化。

Pyramid Object Context. 将图像在四个缩放尺度上分成若干区域：1 x 1，2 x 2，3 x 3和6 x 6，然后在每个尺度上分别使用目标语义池化来更新特征图，然后结合。金字塔目标语义模块能够去除空间上相隔较远的像素的影响并加强相隔较近的像素的作用(属于不同类别的)。最终和输入特征图结合，这个方法被称为 Pyramid-OC，如下图所示：