百度飞浆图像分割课程笔记09：基于语义特征的图推理方法 GINet（Graph Interaction Network for Scene Parsing）

最新推荐文章于 2024-08-06 16:19:48 发布

享受这时光

最新推荐文章于 2024-08-06 16:19:48 发布

阅读量1.7k

点赞数

分类专栏：百度飞浆图像分割课程笔记文章标签：百度 r语言计算机视觉

本文链接：https://blog.csdn.net/qq_39804263/article/details/120991324

版权

18 篇文章 4 订阅

订阅专栏

基于语义特征的图推理方法 GINet（Graph Interaction Network for Scene Parsing）

研究动机
在这里插入图片描述
Beyond Grids以及GloRe都是基于视觉图表征来推理上下文

GINet考虑用语义知识来增强视觉推理
在这里插入图片描述

具体方法
在这里插入图片描述
图构建

推理

在这里插入图片描述
将视觉图的node feature和语义图的node feature去做一个相似度，按不同维度做归一化就可以得到 $G^{s2v}$ 、 $G^{v2s}$

视觉Graph反投影
在这里插入图片描述

框架
在这里插入图片描述

VisG（视觉Graph）：resnet101提取特征，得到Visual Representation视觉表征，通过Graph Project（图投影）构造一个VisG。即在视觉特征上建立一个编码视觉区域之间依赖关系的图，节点为视觉区域，边为各区域之间的相似性或关系。
SenG（语义Graph）：首先数据集存在类别数，把类别的语义embedding通过Graph Project，得到语义Graph（SenG）。即语义Graph建立在与数据集相关的类别（word embedding）上，该类别对语义相关性和标签相关性进行编码。（对于生成的语义Graph，语义Graph是代表输入样本的，不同样本输入会有不同的语义Graph）
VisG和SenG做一个图交互，VisG的每个节点得到了需要的语义上下文信息，SemG的每个节点从Embedding抽取出来时一个General的表征，经过图交互之后，SemG的每个节点为当前图片的每一个语义类别的表征。
- VisG反投影，得到feature map，再接一个FCNN头（3×3卷积+1×1卷积），得到分割结果。
- 对于SenG，在训练时，通过语义上下文损失函数（SC-loss），做一个更新和约束，约束语义图是否有每一个类别。

关注