前言:今天分享的这一篇文章是CVPR2016有关视频语义分割方向的,最近才开始学习语义分割相关的文献,有理解偏差的希望大家可以指正。
语义分割
摘要 / 创新点
从题目来看可以了解本文的主要贡献点在于特征空间的优化。视频的语义分割,相较图像的语义分割更加有难度,因为有时间轴的加入,由原来二维的分割问题拓展到三维空间。由于第三维度的加入,导致运动信息可能出现在三维时空中,因而找到帧与帧之间的对应像素点难度增大。通常,使用欧式空间的度量来确定像素点之间的对应关系,但因为运动信息的干扰,这个度量方式变得不再可靠。本文优化了像素点到欧式特征空间的映射方法,以最小化对应像素点间的距离。另一方面,本文还在优化的特征空间基础上应用稠密的CRF(条件随机场)以得到最终的语义分割结果。
模型
本文提出的分割模型由一组视频团(原文用的cliques)组成。视频团包含互相重叠的视频段(blocks),基于每个视频段定义稠密的CRF,然后依据时空平滑预测的规定进行语义分割。该模型示意图如下所示,可能看了图就好理解一些了。
图中的椭圆代表一个block,每个block有两个与之覆盖的block,基于每个全连接的block定义一个稠密CRF进行分割处理。
下面给出本文中CRF的定义。对于视频中的每个像素点p=( b, t, i ),b为block编号,t为其所在block的帧编号,i是像素点p在该帧中的索引编号。其色彩特征定义为Ip三维向量,坐标特征定义为sp。像素点集合定义为P。对于每一个像素点p,设Xp为一个随机变量,取值范围是L={ l1, l2, ..., lL },即视频中所包含的标签种类。X对应的随机域表示为一个Gibbs分布P(x|P),对应的能量项为E(x|P)定义如下:
其中
Z定义为分离函数(partition function),能量项E中的( p, q )域即为clique的一个单位区域。文中关于clique的定义不是很清晰,推断来看,应该就是连续几帧视频帧的联合区域。关于能量项的定义类似于最大流最小割中的能量方程,其中数据项和关联项都与之前使用过的方法类似。
最大流最小割的文章:最大流最小割
以下进行一些简单的描述。能量方程中的第一项即为数据项,指代将像素p赋值为xp标签的代价值。第二项为关联项,其定义使用高斯核计算:
其中w为权值,μ为兼容项,fp和fq为xp和xq的特征。关联性的定义为:
关联项主要衡量的是两个像素点所取标签情况对互相的影响,若关联性值大,即两个特征向量差异小,则所得出的代价值也小,也就是倾向于给这两个像素点赋予同一标签。有关fp特征向量的定义见下节。
特征空间优化
本文的主要贡献。作者通过在以上定义中增加规则项,以确保分割目标的形状,优化特征空间以减少对应像素点之间的欧式距离。其中,优化的目标特征为所有像素点的位置sp,处理过程中时间和颜色的特征维度保持不变,特征向量即( tp, Ip, sp )。
假设一个视频段block由T×N个像素点组成,T为帧数,N为每帧中的像素点,那么优化的目标方程定义为:
其中s为所有像素点的位置特征,s*为优化得到的特征。下面详细介绍Eu,Es和Et的定义。
数据项Eu
其防抖动操作可以理解为找到中间帧作为所有坐标的参照系,确保找到的优化坐标特征不会与源坐标太远从而避免抖动。注意的是,该约束项虽然只对anchor帧进行处理,但由于其特殊位置,自然会影响到前后的坐标优化。
空间规则项Es
时间规则项Et
优化
文章链接:Bi-CGSTAB 查的时候才发现原来是92年的文章,引用次数4000+
推导和实验
实验结果截图:
本文的方法是最后两个,都取得很不错的性能。
看图更加直观呀~最后一个是人为标定的参照结果,倒数第二列则为本文的结果,图中看来效果也是不错的。
题外话:这篇文章的学习笔记就暂时先写到这里了。。。本以为一点半可以写完的,结果写到五点多,看来时间预估的参数得调一调了= = 新年第一更,祝大家新年快乐!另外,这篇文章我还没看代码,所以到后面部分的时候理解欠佳,之后学习希望得到新的灵感,如果有不对的地方,希望大家指正。
另附这篇文章的资源链接:特征空间优化的视频语义分割
新的一年,大家一起努力学习吧!