【论文阅读】Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering

最新推荐文章于 2023-03-29 15:44:11 发布

huangyuan2019

最新推荐文章于 2023-03-29 15:44:11 发布

阅读量2.9k

点赞数 6

分类专栏：论文

本文链接：https://blog.csdn.net/qq_33034981/article/details/108203092

版权

该论文提出了一种无监督的图像分割方法，通过可微的特征聚类和空间连续性损失函数实现。方法包括固定特征提取器优化聚类标签，然后用固定标签优化网络。实验表明，添加用户涂鸦输入和预训练进一步提高了分割精度。

摘要由CSDN通过智能技术生成

摘要

目标

特征相似的像素应该被分为同一类别
空间上距离近的像素应该被分为同一类别
类别的数量应尽可能多
三个指标有互相排斥的地方，但应该做到一个平衡

贡献点

通过normalization和argmax实现可微的聚类
空间连续性损失函数
扩展了可以让用户输入的涂鸦，使结果更精确
扩展一个预训练方法

介绍

把摘要再扩展地讲了一遍，提到之前的工作超像素提取+线性迭代聚类只满足了空间连续性

方法

问题建模

f：提取特征
g：分配标签
c：标签
无监督方法，f和g是固定的，c待学习
有监督方法，c是固定的，f和g待学习
分解成两个子问题

用固定的f和g优化c
再用固定的c优化f和g

网络结构

在这里插入图片描述
一张RGB图像提取特征后通过一个1x1的卷积转换到一个q维的聚类空间（图中q=3），沿着这个空间的q个轴，通过batch norm把这个q维的特征向量归一化，使用argmax确定每个像素的标签是q维中的哪一维，根据这个确定的伪标签计算特征相似度损失和空间连续性损失，再反向传播。

不考虑batch，我理解的维度变化是这样的：HxW>提取特征后并转换空间>HxWxq>确定伪标签后>HxW
在这里插入图片描述
在训练网络时，先设一个较大的q，随着损失下降，q会逐渐变小，为了防止q变成1，所以需要对response map做一个归一化。

损失函数

基本：
加入涂鸦：
特征相似误差：

$c_n$ 是根据 $r_n$ 进行argmax得到的，所以当i遍历到得到 $c_n$ 的 $r_n$ 时才有ln值累加，因为归一化后 $r_n$ 都是0到1，所以前面有个负号。
空间连续性损失：

计算每个像素上下左右的的response map上的值的差别
涂鸦损失：

网络更新

前面提到的分解为两个子问题，实际上就是CNN前向计算和反向传播的过程。
使用随机梯度下降、Xavier初始化

Xavier初始化的基本思想是，若对于一层网络的输出和输出可以保持正态分布且方差相近，这样就可以避免输出趋向于0，从而避免梯度弥散情况。https://www.zhihu.com/search?type=content&q=Xavier%20%E5%88%9D%E5%A7%8B%E5%8C%96

另外一个重要的点就是与有确切标签的有监督学习不同，本方法在最后一个卷积层和argmax层之间加的batch norm非常关键，把response map中的每一个轴都归一化到0均值，单位方差，这样每个轴才能平均地进行比较，进而得到正确的类标签。

实验结果

连续性损失的有效性

关于特征相似性损失和连续性损失之间的比例，根据数据集需要的分割精度，设置不同的比例可以达到更好的效果。
在这里插入图片描述

在这里插入图片描述

用户输入涂鸦的分割

在这里插入图片描述

参考图像预训练的效果

在这里插入图片描述

源代码解析

github地址：https://github.com/kanezaki/pytorch-unsupervised-segmentation-tip/blob/master/demo.py

import argparse
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.autograd import Variable