TMM 2023 | CrossNet:通过3D光流的跨场景背景减除

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

2fc33cf5613db63a400782ac4cf7a2fe.png

CrossNet: Cross-scene Background Subtraction Network via 3D Optical Flow

文章:https://ieeexplore.ieee.org/document/10100916

代码:https://github.com/dongzhang89/HOFAM

引言:

本文研究了一个有趣但尚未解决的跨场景背景减除问题,该问题用于训练一个深度模型来处理大规模视频流。我们提出了一种名为CrossNet的端到端跨场景背景减除网络,其中利用了3D光流。首先,我们设计了一种新的运动描述符,即分层3D光流(3DHOP),以观察细粒度运动。然后,我们构建了一个跨模态动态特征过滤器(CmDFF),以实现运动和外观特征的交互。CrossNet表现出更好的泛化性,因为所提出的模块被鼓励学习前景和背景之间更具区别性的语义信息。此外,我们设计了一个损失函数来平衡前景实例的大小多样性,因为小物体通常由于训练偏差而被遗漏。我们的整个背景减除模型被称为分层光流注意模型(HOFAM)。与大多数现有的基于随机过程和基于CNN的背景减除模型不同,HOFAM避免了不准确的在线模型更新,不会严重依赖场景特定信息,并且可以很好地表示开放世界中的环境运动。实验结果表明,它的性能大大优于最先进的技术。所提出的框架可以以即插即用的形式灵活地集成到任意流媒体系统中。

方法:

在上述工作中,现有的背景减除方法都是无监督的像素级二元分类。他们在随机过程中构建逐像素统计模型或对像素之间的上下文进行建模。先进的语义分割方法最近取得了显着的进展。然而,它们通常带来高成本的像素级注释和特定于场景的训练,同时忽略运动线索和时间相关性。需要解决的基本问题:1)传统的无监督背景扣除往往会受到在线模型更新不准确的困扰;2)监督方法,例如现成的深度模型,严重依赖场景特定信息,从而限制了它们的跨场景性能;3)光流不足以代表开放世界中的环境运动。

CrossNet:

我们集成了两个流(原始帧 IT 及其 3D 光学 Flow Hop(T)),然后将它们的特征嵌入到 CrossNet 中。所提出的跨场景背景减除网络的总体架构如图1所示,该网络在上采样过程中集成了多个CmDFF模块,以融合编码器和解码器的特征,其中Ei和Opi在编码器中具有特征 分别提取每层的外观和光流特征。Di是解码器特征,Atti是指相应层中的CmDFF模块。CrossNet使用基于编码器和解码器的全卷积结构作为主干网络。图像及其光流被馈送到各自的编码器,然后输出前景分割掩模256×256×1。编码器和解码器结构完全对称,分别有8个卷积层和16个卷积层。下采样(编码器)和上采样(解码器)卷积的步长为2。编码器的特征图经过一层卷积层后,宽度和长度减少到原来的1/2。每个上采样步骤后,解码器特征图的长度和宽度都会加倍。当与 CmDFF 模块集成时,该模型还在解码器层中使用步长为 1 的卷积

27ab58c69f9c4db496197887ba8dd7c0.png

3D分层光流:

光流作为瞬时运动线索,在表示运动时缺乏足够的稳定性,主要表现在以下两个方面:1)基于像素的不同灰度级计算运动矢量;当对比度较低时,运动矢量将无效,如图4中的空洞Op(τ1)和Op(τ2);2)相邻帧之间的时间间隔很短,而前景的运动速度是随机的,导致对慢动作前景的响应较弱。长间隔的光流具有物体长期运动的线索,但物体的轮廓不精确,而短间隔的光流对慢速运动的前景响应较弱,如图1中的Op(τ1)。

如图1所示,3D-HOP旨在解决相邻图像帧的光流不足以描述运动线索的问题。当前帧和不同长度的相邻帧制定三种类型的光流以相互补充。假设当前帧在时间T,并且时间T-τ1、T-τ2和T-τ3的帧分别使用间隔τ1、τ2和τ3。在计算出T时刻的光流(记为Op(τ1)、Op(τ2)和Op(τ3))后,我们将不同间隔的光流分配到三个通道中,构建分层光流Hop(T)。我们使用selflow来计算所有光流,因为该方法是一种自监督方法,这有助于将其提升为通用的跨场景训练任务,而不需要对视频帧进行复杂的光流注释。

610b1b2296d0d39d71bcec3cd2d8d94f.png

跨模态动态特征过滤器(CmDFF):

我们的任务是学习跨模态(外观和运动)特征,这需要具备更高级的表示和泛化能力的特征学习方法。受全局注意力上采样工作的启发,我们可以利用具有丰富类别信息的高级特征来对低级信息进行加权,以选择精确的分辨率细节。与此不同的是,所提出的CmDFF在解码器阶段通过密集的注意力过程将解码器和编码器的特征进行融合。

919bb3f7c85b8212b230d0c1883532f4.png

所提出的跨模态动态特征过滤模块如图2所示。解码过程是从前一个解码层d0e57cebc185df5159d8f5dacd4d19bb.png到下一层ec5e193ebfe79bd5d9d75f5035e79331.png。在此过程中,CmDFF模块通过编码器对解码器的特征进行加权。在 CmDFF 模块内部,输入包括a7b126c41c6487fa275978b040ee10c8.png088061018d0d0a858009398deda8505f.png,以及解码器的前一层63426f4f7024fae86cec9b7ec5a4b2f0.png,输出是解码器层6395188a9ca20b1bdd46f9fd545ed13c.png。具体来说,当我们得到两个特征图0dcc141cb5c1e4be7bcc92b5ef2278d3.png79ed91030750dbb8412ece97851640dd.png,为了获得 f93ff019c5a62c7448c8c019fc459b43.png,我们首先连接来自两个编码器的两个特征图 69442956d2b632cfd44793f5bc26905f.pngbb5cd5045fb5fd9558b8a5a10e052aed.png。连接后,通道变为原来的两倍2C,然后通过卷积得到7af44290005dcfe03c1250be3e387f1e.png

04ff6139c9f80cc4a7308a9614f9454c.png

其中,conv0表示用于提取外观特征并减少通道数的3×3卷积,9365b84ec1696c258fd9cd1795cfa926.png表示在通道维度上进行的特征图拼接,Relu是激活函数。

在解码层中fc0170d5afcd21c695fcd5a3d7005738.png,通过进行上采样卷积操作,我们得到了 dba3ada3fb0c42c8da0030ffa91328f0.png。然后,通过卷积和激活操作,我们得到了加权系数张量8c06cd0a0ae37768a568e890d9853b20.png

7eee1f88941dc2e7d12c9b48c270835c.png

其中,σ是Sigmoid函数,conv1是3×3卷积核和步长1的卷积操作,用于学习加权系数,BN表示批归一化。通过像素相乘,将46c64e0f3f5a113ca578a385126507df.png与特征图b4312e5f832ae9c496a4ffd034ba193e.png相结合,得到加权特征图。在批归一化之后,我们从6dab56770bad0de50224357837758a70.png中获取解码器的特征。为了防止过拟合并提高网络的鲁棒性,我们还在原始解码器中添加了Dropout操作。在训练过程中,每个节点有50%的概率被抑制,但在网络推断中,我们会移除这个Dropout操作。编码器的加权特征图和解码器的特征进行拼接,得到第i个解码层的fc36a39c9b4edfd52e9286e908a340c5.png

fbb3a9876d3318588cce044e19e7fb79.png

其中,⊙表示Hadamard乘积操作。跨模态动态特征滤波器(CmDFF)通过具有更高表示和泛化能力的跨模态(外观和运动)特征学习,实现了特征学习。

类内尺度焦点(CS-Focal)损失:         
首先,我们定义了一幅图像帧中前景和背景之间的区域比例 7bb9a18ccb2e2592ba7069d48de67b50.png,然后定义了一个内部类别平衡系数 β,如下所示:

f5281cfaddfddd5eb0d13dacd0b92a4f.png

我们将 \frac{1}{S(f g)} 和50的最小值设置为了防止潜在场景的无限大。而50是在训练图像中对小物体区域进行采样后得到的值。t_3是归一化参数。提出的类内尺度焦点(CS-Focal)损失定义如下:

276f68546daddb86c39bb354fbbae9d0.png

从图3中,可以看到焦点损失和CS-Focal损失的可视化比较如左图所示。我们可以看到,在训练过程中,CS-Focal损失增强了对小目标的损失,从而有效提高了小物体被正确分割的可能性。为了稳定地训练模型,我们将l1损失应用为标准的正则化项。它是预测值p和真实标签y之间的差异度量。最终的损失函数可以表示为:

5aa18b07a3e580d453baf4a645bbfb46.png

其中6c5838f3f70be7d079e821f4c5ae4746.png2b900aab7c5b19c272cc62b9a35a3cf7.png 是两个可调超参数,表示最终损失中两项之间的权重。

cda82256f2130ef573d5feec8c8f4df8.png

实验:

1、在数据集CDNet2014上的结果对比

从表2 的结果来看,CrossNet的Recall为0.9661,Cascade CNN的Recall为0.9506排名第二,STAM以0.9458排名第三。CrossNet 将召回率提高了 1.55%。对于F-measure,CrossNet作为单一模型,获得了F-measure的最佳性能,为0.9776,比最佳特定场景深度模型Motion U-Net的F-measure 0.9369好4%。这些结果表明,即使训练数据有限,CrossNet 也能保持高性能。

0900813b7ad0cad777fec35a56cf5f5a.png

2、跨场景测试

我们将现有最先进的跨场景深度模型、特定场景深度模型、背景减法和语义分割模型与 CrossNet 进行比较,无需额外训练。从表 III 可以看出,在 LIMU 上,CrossNet-HOFAM 在两个子集上的表现比其他模型更好。在CameraParameter的子集上,CrossNet以0.7979的F-Measure排名第二,而PSPNet的F-Measure最高为0.8656。总体而言,CrossNet 获得了最好的性能,F-measure 为 0.7981,SU-CPB 以 0.7789 排名第二,PSPNet 以 0.7506 排名第三。

a02ea65b31417664cc384ea215fa1978.png

在 LASIESTA 上,从表 IV 中可以看出,与 LIMU 上一样,CrossNet 与上述方法进行了比较。显示了两个室内和两个室外子集,即室外移动摄像机 (O_MC)、室外多云条件 (O_CL)、室内遮挡 (I_OC) 和室内移动摄像机 (I_MC)。总体而言,CrossNet 获得了最好的性能,F-measure 为 0.8072,而 STAM 以 0.6807 排名第二。

1aaa3089f69c5f88bb73a5a3478d7515.png

3、HOFAM 的精确率-召回率分析

在图9中,我们展示了提出的背景减除框架HOFAM与其他模型的精确率-召回率(PR)比较结果。我们将结果在经过训练的数据集(CDNet2014 [61])和两个跨场景数据集(LIMU [62]和LASIESTA [63])上进行了比较。我们可以观察到,提出的HOFAM在不同数据集上可以取得更好的结果,并且表现更加稳定。同时,与在CDNet2014上的表现相比,尽管所有的有监督方法(HOFAM、STAM、DeepBS、CascadeCNN和在CDnet2014上训练的FgSegNet)在跨场景数据集LIMU和LASIESTA上都存在不可避免的性能下降,但是提出的HOFAM表现更加稳定,这表明我们的模型具有更好的跨场景泛化能力。

b31128f9663dc6f78d6697696dd5e30c.png

我们可以观察到,提出的HOFAM在不同数据集上可以取得更好的结果,并且表现更加稳定。同时,与在CDNet2014上的表现相比,尽管所有的有监督方法(HOFAM、STAM、DeepBS、CascadeCNN和在CDnet2014上训练的FgSegNet)在跨场景数据集LIMU和LASIESTA上都存在不可避免的性能下降,但是提出的HOFAM表现更加稳定,这表明我们的模型具有更好的跨场景泛化能力。

4、消融实验

我们在表1进行了消融实验来验证HOP、CmDFF 和 CS-Focal 损失函数的作用。根绝实验结果可以,相传于基线,使用提出的3D-HOP,CmDFF以及CS−Focal + l1损失都给F-measure和Mean Dice两个指标带来了很大的提升。

9e15f17c9e8f538bae39edd6931d73f9.png

总结

我们提出了一种实现跨场景背景减除的方法。与现有的最先进的跨场景深度卷积神经网络、特定场景深度卷积神经网络、传统的背景减除方法和现代语义分割模型在CDNet2014、LIMU和LASIESTA基准测试上相比,CrossNet显示出了有希望的泛化能力,可以区分与场景无关的运动模式,而无需为新场景进行任何额外的训练。

我们提出了一种实现跨场景背景减除的方法。与现有的最先进的跨场景深度卷积神经网络、特定场景深度卷积神经网络、传统的背景减除方法和现代语义分割模型在CDNet2014、LIMU和LASIESTA基准测试上相比,CrossNet显示出了有希望的泛化能力,可以区分与场景无关的运动模式,而无需为新场景进行任何额外的训练。

 
 

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看815e519d909b5521a3f5f50b957f296a.gif

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值