视频语义分割介绍

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

摘要:

随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。

1、基本任务介绍:

语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。

 

近些年来随着卷积神经网络的发展,尤其是全卷积网络(Fully Convolution Network)的产生,语义分割这个任务在各个数据集上取得了很大的突破.这个任务本身有很多应用场景,强调计算机对场景进行感知和理解,因此在机器人视觉,自动驾驶等应用中有着很重要的地位。然而实际上,相比于单张图像,我们更容易获取视频数据,而视频数据本身有很强的帧冗余性和不确定性,如果我们把视频直接一帧一帧地送入图像分割的模型中,必然会带来很大的计算开销,并且由于场景中运动物体的变化,也会导致分割结果不稳定性,比如一个物体前一帧是类别A,而到中间的几帧的时候突然变成的类别B,或者物体的内部出现语义类别不一致的现象。所以目前视频语义分割主要研究的重点大致有两个方向:第一个是如何利用视频帧之间的时序信息来提高图像分割的精度,第二个是如何利用帧之间的相似性来减少模型计算量,提高模型的运行速度和吞吐量。

 

任务的评估指标和图像语义分割相同均为mIOU(mean Intersection-over-Union),由于是video数据,同时会测试模型的FPS作为video加速方向的一个平衡.目前主流的数据集是Cityscape, Cityscape 数据集是目前主流的基于自动驾驶场景的语义分割的数据集,此外还有部分文章还使用了Camvid数据集。

 

2、 方法介绍

2.1 图像语义分割简要回顾

 

这里我将会简单地回顾下几个经典的图像语义分割模型。目前的大多数state-of-the-art的模型都是采用特征网络(backbone)加上下文模块(context modeling)。其中特征网络一般是较深的分类网络,比如resnet系列,这一部分的主要目标为了获取更好的特征表示。而上下文模块的目标是让每个像素的特征之间建立关系,进而获取整个图像的场景信息,让分割的结果的语义一致性更强,这个也是目前研究的一个热点。

图片 1.png

                                                                          图1: PSP net

 PSP-net使用了resnet101作为网络的backbone, 提出了使用pyramid pooling module即特征网络金子塔结构作为context modeling来获取不同尺度的信息,具体操作为把resnet的最后一个block的输出做了4种不同尺度的average pooling操作再上采样回原来尺度,最终再把这些不同的尺度的信息进行融合,这样可以更好地捕获不同尺度的context信息。

  • 5
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值