PCS2021:监控视频编码基于实例分割的背景参考帧生成

本文来自PCS2021论文《Instance Segmentation Based Background Reference Frame Generation For Surveillance Video Coding》

对于监控视频系统来说,最重要的两个模块是智能分析和视频压缩。传统的监控系统中对于两项任务都是分别处理的,导致效率低下。论文提出将两项任务混合处理的方法,既能高效分析又能提高压缩效率,即提取的语义信息不仅用于智能分析任务,还可以用于构建背景参考帧(Background Reference Frame,BRF)。

混合监控系统

传统的监控系统对智能分析和视频编码两个任务单独处理,两个任务间没有交互。为了解决这个问题,论文提出了混合处理系统,如Fig.2。

系统中包含视频编码流和智能分析流两路流。其中智能分析任务由语义信息提取和智能分析两个模块组成。语义信息提取直接在原始帧上进行,避免了压缩后失真的影响。视频编码流可以利用原始帧和语义信息中的前景信息来生成背景参考帧BRF,由于利用了语义信息生成的BRF在应对复杂环境时更加鲁棒,对于背景区域的预测更加精准。在这个模型中,语义信息提取模块是连接两路流的基础模块。

基于实例分割的BRF生成

BRF的框架如Fig.3,

当编码帧F_T时,首先进行实例分割产生前景掩膜M_T。F_T中的每个CTU要进行检测确定是否为背景块,检测利用了运动信息和语义信息,每个CTU都有一个标志位表示是否是背景块。对于检测出来的背景块提高编码质量,非背景块采用正常质量编码。在解码端,将IDR帧作为初始BRF(F_brf),解码后的背景CTU用来更新F_brf中对应的块。

前景掩膜生成

使用实例分割模型Mask R-CNN来生成像素级前景掩膜。其中前景只考虑了人类相关目标HRO和交通工具相关目标VRO。HRO包括人类和一些相关物体例如背包和雨伞,VRO包括常见的交通工具例如汽车、自行车、卡车。前景掩膜M_T的生成如下,

背景块检测

前景掩膜生成后,要利用运动信息和语义信息进行背景块检测。两种信息如下,

1)运动信息:运动信息用于检测内容稳定的区域,通过计算相邻帧同位块的方差得到。F_T帧的第k个CTU的运动信息计算如下,

一般来说,运动信息值背景小通常是比较稳定的区域,应该检测为背景块。但是这容易将一些低速运动的物体误检为背景。为了解决这个问题,进一步利用语义信息来确定背景块。

2)语义信息:语义信息是对运动信息检测的补充。对于一些静止的前景物体例如坐着的人和停着的车,很容易被检测为背景。F_T帧的第k个CTU的语义信息计算如下,

其中W_H和W_V分别是HRO和VRO物体的权重,实验值分别为8和4。W_H大于W_V是因为HRO的物体通常移动速度比较慢容易被误检。

获得了运动信息和语义信息后,背景块的置信度计算如下,

当BC大于预设的阈值时该CTU会被判定为背景块,为了避免码率激增每帧最多有1/10的块会被判定为背景,当判定的背景块数量超过预定时只有置信度最高的块会被判定为背景。

背景块压缩

检测出的背景块使用较小的QP编码以提高参考质量。每个CTU需要传输一个标志位表示是否是背景块,重建的背景块不仅用于重建当前帧也要用于更新BRF中对应的块。

实验结果

论文提出的BRF在HM16.6中实现,并附加到RPS中作为额外的参考帧。实验使用QP={22,27,32,37},测试数据使用了11条监控序列,时长20秒。

表1是添加BRF后的BD-Rate结果,在LDB配置下Y、Cb、Cr的BD-Rate分别为29.0%、29.0%和26.8%,LDP配置下Y的BD-Rate平均为27.3%。

Fig.4是生成的背景帧的一些主观结果,第一行是其他方法的结果,第二行是本文方法的结果,可以看见其他方法生成的背景帧还含有前景物体,本文方法可以去除这些前景物体。

感兴趣的请关注微信公众号Video Coding

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值