Semantic Object Parsing with Graph LSTM
原文链接Semantic Object Parsing with Graph LSTM
图神经网络
Grap Neural Network(GNN)在很多领域日益普及,包括社交网络、知识图谱、推荐系统甚至于声明科学。
GNN借鉴了CNN的思想。CNN通过卷积核共享权重参数、实现局部信息连接、并层层传递的方式将底层低级信息,转化为高级语义信息。CNN处理欧式空间数据具有优势,而图结构的数据不是欧式空间,但是这种共享权重、局部连接、层层递进的思想仍然可以用到图结构的数据中。原因如下:
- 图结构数据是典型的局部连接的结构;
- 相较于传统的光谱图,共享参数可以减少计算消耗;
- 多图层结构可用于处理图结构的分层模式,捕捉各种图样式数据。
CNN只能用于处理欧式结构数据,例如图片,但是欧式数据可以被设计成图结构数据。本文描述的是一篇使用图网络结构处理图片实现语义目标分析的论文。
Semantic Object Parsing with Graph LSTM
图神经网络怎么应用到图像分割呢?这篇论文介绍了几种方法:
- 将图像的每一个像素作为图结构的一个节点;
- 将图片网格化,每一个网格为一个patch,将每一个patch作为一个节点;
- 将图片分割成多个任意形状的超像素,每一个超像素作为一个节点。
本篇论文使用的是第三种方法,超像素使用SLIC【】方法产生。
信心驱动机制
对于数据参数的更新,需要选择一个初始数据点,然后利用观测数据对初始数据参数调整。在图片数据的图网络中,每一个超像素区域(节点)需要通过参考相邻超像素区域(节点)信息进行数据更新,从而得到语义信息。每一个图片可能分割出多个超像素区域,应该选择从哪一个几点开始更新呢?
本文使用信心驱动机制,即从具有最确定性的label的节点开始,这样做的好处是,具有最确定性的label节点信息是准确的,这样再更新它的相邻节点时,相邻节点也更参考更准确的信息。信心驱动机制的信息来自Confidence map 。
Graph LSTM
标准的LSTM包含四个门:input gate、 forget gate、 memory gate、 output gate。
输入特征: 对于每一个超像素,通过计算超像素里每一个像素的平均值,得到输入特征 input feature f i f_{i} fi
相邻节点的隐藏状态: 相邻节点的信息在更新时,可能会遇到有的节点已经更新而有的节点没有更新的情况,此时就要分开对待已更新的节点和未更新的节点。文中记录已更新的节点的状态为 g j = 1 g_j =1 gj=1 未更新的为0。相邻节点的隐藏状态 h ‾ i , t \overline{h}_{i,t} hi,t的计算公式如下: