文章目录
Motivation
1、使用LSTM网络的动机:传统的CNN大多是捕捉有限的局部信息,但是在语义预测的时候往往需要的是全局的信息。例如“举起的胳膊”这种,对比躯干才能判断胳膊是举起的还是放下的
2、利用graph构建LSTM的动机:利用LSTM进行图像处理的时候通常将图像切成大小固定的patch/pixel,不灵活,不方便
Contribution
1、提出一个基于Graph的LSTM,可以获取上下文的信息,从图片自适应的导出graph
2、提出了一个置信度策略来选取开始节点并且生成更新序列
3、在每个LSTM单元可以动态的学习遗忘门单元
4、在四个challenging的数据集上(PASCAL-Person-Part,Horse-Cow parsing,ATR and Fashionista)上进行实验并且取得了state-of-art的结果
framework
1、输入的RGB图像首先经过预处理,使用SLIC来生成超像素的图像,在此基础上构建graph LSTM
2、随后,原RGB图像经过5层cnn,获得feature map,该feature map分为两路继续进行
3.1 第一路:经过1X1的卷积层,获得confidence map(置信度map)。 注意,这里的confidence map是针对every pixel而言的。 在获得的confidence map上来生成super-pixel级别的confidence map和更新序列,具体做法在下面( Conf