GraphNet: Learning Image Pseudo Annotations for Weakly-Supervised Semantic Segmentation(2018 ACM MM)
一.总览
该文章利用bboxing 和 Scribble 作为先验,接着对图片提取卷积层的特征作为像素embedding和超分辨的区域。
最后利用GraphNet提取得到相应的类别标签,而后利用可置信的交叉熵进行更新。
![4eb477d896eaffba46444cb5cfc001d4.png](https://i-blog.csdnimg.cn/blog_migrate/cc8b89fe411cc7b2d1fc260fbeabed2e.jpeg)
二.主要创新点
GraphNet,文章引用了图卷积网络的变种模式,该地方引用自[6][23],将其应用于语义分割网络,通过合理设计图像像素点之间的关系,回归出了较为良好的语义分割结果。
构建Graph,基于位置信息和CNN Feature Embedding两方面考虑设计,即临近的像素点往往是相似的,而相距较远的相似点不做考虑;另一方面,计算两个像素点之间的欧氏距离,并用Embedding的维数做约束。综合得到两个像素点间的相似度。
构建GCN(Graph Convolutional network),构建两层的图卷积模型,共回归出C+1类的类别,(C为数据集目标类别总数目)
三.一些细节
该文章所使用的框架为Deeplab-vgg16,所使用的feature embedding 取自vgg16网络的pool5层。
四.结果
VOC2012数据集
首先是在完全监督下Deeplab-vgg16能达到71.5%的miou。在本文的方法下,scibble监督下能达到68.9%的结果,即接近完全监督的结果,还是比较可观的。
五.主观评价
该文章所使用的弱监督信息还是比较多的,能否延展到image-level的信息,只引用图片的类别信息,而得到较好的结果,是接下来的工作。