要解决的问题
半监督的视频目标分割
方法
给出一帧或多帧人工标注的分割掩码,学习追踪特定目标的模型,然后将后续的视频序列的所有像素分割为前景与背景
原理
基于一个Fully-CNN,可以连续的传递generic semantic information(在ImageNet上学习,用于前景分割任务),最后学习test sequence的single annotated object的表现
论文贡献
1. 针对一个特定的目标实例,给出一幅标注的图像,对video object segmentation预训练出一个image recognition的模型(首先对一系列带有人工标注目标的视频进行训练,然后在测试阶段,对人工标注单帧图像做fine-tuning)
2. 对视频的每帧进行独立处理,即从每个人工分割的帧得出目标的模型
3. 可以对speed和accuracy进行权衡(可以选择fine-tuning的级别;可以标注更多的帧)
FCN
将最后一层fully connected layer换成一个1*1的convolution,就可以做到训练任何大小的图像(免去了patch-based方法的冗余计算;移除fully connected layer减少了训练的参数)
训练FCN:首先,对大量目标进行训练,构建出一个可以区分前景的模型(offline);然后在test time,对要进行分割的网络做fine-tuning
Criteria for CNN
1. 对目标的准确定位
2. 较少的训练参数
3. 相对较快的测试时间
pixel-wise cross-entropy loss
modified version(平衡两个二进制类)
Training
Offline training
1. 在ImageNet上预训练,为图像做标签(base network)
2. 在DAVIS训练集的二进制掩码上训练网络,学习出一个分割目标的方法(parent network)
3. 给出第一帧图像及其分割,对parent network进行训练、fine-tuning,然后对整个序列用新的权重进行测试,分割出视频多有的帧(test network)