【论文笔记】OCRNet论文阅读笔记

justld

已于 2022-03-25 11:29:00 修改

阅读量2.1k

点赞数 1

分类专栏： CNN 语义分割深度学习文章标签：深度学习计算机视觉语义分割 OCRNet cnn

于 2022-03-25 10:34:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40035462/article/details/123717178

版权

深度学习同时被 3 个专栏收录

88 篇文章 29 订阅

订阅专栏

21 篇文章 8 订阅

订阅专栏

17 篇文章 6 订阅

订阅专栏

paper：Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation

github：https://github.com/HRNet/HRNet-Semantic-Segmentation/tree/HRNet-OCR

语义分割任务中，像素所属的类别就是像素所在的对象的类别，能不能利用像素和其所属目标的关系呢？OCRNet提出了一个有效方法，利用像素所属的目标的上下文信息来提升像素的表征（representation）。（本文说的表征，通俗理解就是每个像素对应的embedding）

该方法分为3步：

（1）根据类别数生成soft object region（可以理解为粗糙的分割结果）；

（2）通过整合目标的所有像素的表征来估计目标区域表征（ object region representation）；

（3）根据像素和其所在目标的关系，计算目标上下文表征（object-contextual representation），并用目标上下文表征增强像素表征；

目录

一、计算公式

1、Soft object regions

2、Object region representations

3、Object contextual representations

4、Augmented representations

二、网络结构

三、实验结果

一、计算公式

公式中的 $\delta() \rho() \phi ()\psi ()$ 函数实现：1x1 conv->BN->relu

1、Soft object regions

将输入图像I划分为K个Soft object regions $\left \{ M_{1},M_{2},M_{3}...M_{k}\right \}$ 。

简单理解，假设输入图像是[N, C, H, W]，那么Soft object regions维度就是[N, num_classes, H, W]，其中的元素值表示了该像素属于某个类别的程度（其实就是语义分割头没有softmax的输出）。

2、Object region representations

首先给出论文的公式如下：

乍看一脸懵，立马跑去看看源码， $\widetilde{m}_{ki}$ 是softmax输出的概率值。

简单的理解：对于同一个目标的所有像素，需要学习一个embedding来表征。假设输入X维度为[N, C, H*W]，Soft object regions维度为[N, num_classes, H*W]，一个目标有多个像素，需要学习一个统一的表征，那么学习到的Object region representations维度为[N, num_classes, C]。

3、Object contextual representations

首先计算像素表征和目标表征的关系（ $w_{ik}$ 表示第i个像素表征和第k个目标区域表征的关系）：

利用下式计算目标上下文表征 $y_{i}$ 。

这里的计算过程和Attention相同：

可以把 $\phi (x)$ 看作q，维度[N, H*W, C]， $\psi (x)$ 看作k，维度为[N, C, num_classes]， $\delta(x)$ 看作v，维度为[N, num_classes, C]，y的维度为[N, H*W, C]。

$y=\rho (softmax(q@k, axis=-1)@v)$

4、Augmented representations

将目标上下文表征和像素表征结合起来，增强像素表征。

二、网络结构

OCRNet的网络结构如图所示。

设Pixel Representations维度为[N, C, H, W], Soft Object Regions维度为[N, num_classes, H, W]。

Object Region Representations: [N， num_classes, C]

Pixel Region Relation: [N, num_classes, H, W]

Object Contextual Representation: [N, C, H, W] (图中的去除pixel representations蓝色小方块的部分)

Augmented Representations: [N, 2C, H, W]

三、实验结果

OCRNet在各数据集上性能如下。

四、总结

语义分割任务中，同一物体的所有像素的embedding应该相似，OCRNet通过Attention机制显式地利用了这种关系来提升语义分割的效果。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

justld 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。