论文: 《Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer》
github: https://github.com/Gaoyiminggithub/Graphonomy
创新点
先前在具有特定标签的特定领域数据集上高度finetune的模型仅适用于本领域,如果没有重新训练,很难适应于其他场景;
作者提出Graphonomy,统一来自不同领域或不同细粒度标签数据,训练一个通用模型。
算法
Graphonomy由两部分构成:
1、Intra-Graph Reasoning:提取每个域中的语义图,通过用图传播信息来改进特征学习。
2、Inter-Graph Transfer:提取每个域中的语义图,通过用图传播信息来改进特征表示学习。
Graphonomy进行通用人体解析实现多层次人体解析如图3所示,
Intra-Graph Reasoning
图内推理:
利用外部结构化信息进行全局图推理,增强局部特征;
为了构造图:
1、提取图像特征作为图节点的高层表示,如式5;
其中,
Z
∈
R
N
×
b
,
P
∈
R
C
×
N
,
W
1
∈
R
C
×
D
Z\in R^{N \times b}, P\in R^{C\times N}, W_1 \in R^{C\times D}
Z∈RN×b,P∈RC×N,W1∈RC×D
2、聚合与特定语义部分(如人脸)相关的视觉特征,以描述其对应的图节点的特征,如式6;
其中,
W
e
∈
R
D
×
D
W^e \in R^{D \times D}
We∈RD×D,
σ
\sigma
σ为非线性激活函数,图节点
υ
\upsilon
υ与
υ
′
\upsilon'
υ′之间权重
α
υ
→
υ
′
∈
A
e
\alpha_{\upsilon\rightarrow\upsilon'}\in A^e
αυ→υ′∈Ae
Inter-Graph Transfer
图间变换:
为了提取源图到目标图的语义信息;不同级别的人体解析任务有不同的部件标签,但他们之间存在层级相关性;
源图到目标图变换过程如式7,
其中,
A
t
r
∈
R
N
t
×
N
S
为
迁
移
矩
阵
,
W
t
r
∈
R
D
s
×
D
t
为
可
训
练
权
重
矩
阵
A_{tr}\in R^{N_t\times N_S}为迁移矩阵,W_{tr}\in R^{D_s\times D_t}为可训练权重矩阵
Atr∈RNt×NS为迁移矩阵,Wtr∈RDs×Dt为可训练权重矩阵
作者比较四种迁移矩阵计算方法:
1、Handcraft relation。人工设计。若两节点存在从属关系,则边为1,否则为0;
2、可学习矩阵;
3、特征相似性,如式8,计算源图顶点与目标图顶点特征相似性;
4、语义相似性。如式9,通过word2vec模型将标签语义信息映射为词向量。
s
i
j
s_{ij}
sij表示源图中i节点词向量与目标节点j的词向量之间余弦相似性。
实验
与SOTA方法比较
在ATR数据及CIHP数据性能如表2、3,
多数据集通用解析
首先在CIHP数据集上训练,而后将其用于PASCAL-Person-Part数据集,结果如表7.
消融实验
消融实验结果如表4
结论
Graphonomy解决人体分割及场景分割两大任务。人体分割使用通用模型减轻标签差异,并使用来自不同数据集的标注信息;类似于人体分割,场景分割联合实例分割以及背景分割任务。