学习周记 20190907

最新推荐文章于 2022-09-02 16:21:29 发布

御坂Alter

最新推荐文章于 2022-09-02 16:21:29 发布

阅读量204

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42412712/article/details/100592662

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

图像语义分割
从最简单的像素级别「阈值法」（Thresholding methods）、基于像素聚类的分割方法（Clustering-based segmentation methods）到「图划分」的分割方法（Graph partitioning segmentation methods），在深度学习（Deep learning, DL）「一统江湖」之前，图像语义分割方面的工作可谓「百花齐放」。
阈值法代码：https://blog.csdn.net/weixin_37799689/article/details/89284032
kmeans聚类法代码：https://blog.csdn.net/weixin_44510615/article/details/90581765
图划分：
Normalized cut （N-cut）方法是基于图划分（Graph partitioning）的语义分割方法中最著名的方法之一，于 2000 年 Jianbo Shi 和 Jitendra Malik 发表于相关领域顶级期刊 TPAMI。通常，传统基于图划分的语义分割方法都是将图像抽象为图（Graph）的形式 G=（V，E）（V 为图节点，E 为图的边），然后借助图理论（Graph theory）中的理论和算法进行图像的语义分割。常用的方法为经典的最小割算法（Min-cut algorithm）。不过，在边的权重计算时，经典 min-cut 算法只考虑了局部信息。如下图所示，以二分图为例（将 G 分为不相交的 , 两部分），若只考虑局部信息，那么分离出一个点显然是一个 min-cut，因此图划分的结果便是类似或这样离群点，而从全局来看，实际想分成的组却是左右两大部分。
在这里插入图片描述
针对这一情形，N-cut 则提出了一种考虑全局信息的方法来进行图划分（Graph partitioning），即，将两个分割部分 A,B , 与全图节点的连接权重（assoc(A,V) 和 assoc(B,V)）考虑进去：

如此一来，在离群点划分中，中的某一项会接近 1，而这样的图划分显然不能使得是一个较小的值，故达到考虑全局信息而摒弃划分离群点的目的。这样的操作类似于机器学习中特征的规范化（Normalization）操作，故称为Normalized cut。N-cut不仅可以处理二类语义分割，而且将二分图扩展为 K 路（ -way）图划分即可完成多语义的图像语义分割，如下图例。

Grab cut 是微软剑桥研究院于 2004 年提出的著名交互式图像语义分割方法。与 N-cut 一样，grab cut 同样也是基于图划分，不过 grab cut 是其改进版本，可以看作迭代式的语义分割算法。Grab cut 利用了图像中的纹理（颜色）信息和边界（反差）信息，只要少量的用户交互操作即可得到比较好的前后背景分割结果。

DL 时代的语义分割

其实大家不难看出，前 DL 时代的语义分割工作多是根据图像像素自身的低阶视觉信息（Low-level visual cues）来进行图像分割。由于这样的方法没有算法训练阶段，因此往往计算复杂度不高，但是在较困难的分割任务上（如果不提供人为的辅助信息），其分割效果并不能令人满意。

在计算机视觉步入深度学习时代之后，语义分割同样也进入了全新的发展阶段，以全卷积神经网络（Fully convolutional networks，FCN）为代表的一系列基于卷积神经网络「训练」的语义分割方法相继提出，屡屡刷新图像语义分割精度。下面就介绍三种在 DL时代语义分割领域的代表性做法。

全卷积神经网络FCN

FCN 的思想很直观，即直接进行像素级别端到端（end-to-end）的语义分割，它可以基于主流的深度卷积神经网络模型（CNN）来实现。正所谓「全卷积神经网络」，在FCN中，传统的全连接层 fc6 和 fc7 均是由卷积层实现，而最后的 fc8 层则被替代为一个 21 通道（channel）的 1x1 卷积层，作为网络的最终输出。之所以有 21 个通道是因为 PASCAL VOC 的数据中包含 21 个类别（20个object类别和一个「background」类别）。下图为 FCN 的网络结构，若原图为 H×W×3，在经过若干堆叠的卷积和池化层操作后可以得到原图对应的响应张量（Activation tensor），其中，为 i 第层的通道数。可以发现，由于池化层的下采样作用，使得响应张量的长和宽远小于原图的长和宽，这便给像素级别的直接训练带来问题。
在这里插入图片描述
为了解决下采样带来的问题，FCN 利用双线性插值将响张量的长宽上采样到原图大小，另外为了更好的预测图像中的细节部分，FCN 还将网络中浅层的响应也考虑进来。具体来说，就是将 Pool4 和 Pool3 的响应也拿来，分别作为模型 FCN-16s 和 FCN-8s 的输出，与原来 FCN-32s 的输出结合在一起做最终的语义分割预测（如下图所示）。
在这里插入图片描述
reference：https://mp.weixin.qq.com/s?__biz=MjM5NzY5ODAyNQ==&mid=2651641720&idx=7&sn=8b7c9399b5f140a8f72c67df8e198a83&scene=1&srcid=0915JE56gclgnaiAoWxgrlJr&pass_ticket=OGt4ePT9BBEIomvpJA%2BOWbWToE1DriR1%2Fq8VSweGmHZI1f%2FfVe16utFsOT7Txckb#rd
迁移学习：https://blog.csdn.net/vvnzhang2095/article/details/79882013