#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

本文提出了一种名为SLT-Net的视频伪装物体分割方法,并创建了首个大规模VCOD数据集MoCA-Mask。在CVPR2022上发表的研究揭示了VCOD的挑战,由于伪装物体与背景的高相似性,使得边缘模糊,运动信息噪声大,对现有技术应用效果不佳。SLT-Net旨在利用运动信息有效识别伪装物体。
摘要由CSDN通过智能技术生成

#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

本文提出了一个用于视频伪装物体分割的方法 SLT-Net,并构建了第一个大规模 VCOD 数据集,MoCA- Mask,该研究入选CVPR 2022。
视频伪装物体检测(Video Camouflaged Object Detection,VCOD)是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景(例如:监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]),伪装物体检测(Camouflaged Object Detection,COD)仍是一项有挑战的任务,因为伪装物体往往连人眼都难以分辨。因此,在计算机视觉领域内,与视频目标检测(Video Object Detection,VOD) [48, 1]、视频显著性目标检测(Video Salient Object Detection, VSOD)[16] 以及视频运动分割(Video Motion Segmentation, VMS) [17, 47] 等任务相比,VCOD 仍是一个未被充分研究的问题。
在大多数计算机视觉任务中(例如:实例分割 [52] 和显著性检测 [50]),都假设物体有清晰的边界。因此,在解决此类问题时可依赖于图像层面的信息,并且融合运动信息,还可以进一步提升目标任务的效果。相反,在伪装物体检测中,物体的边缘是模糊且难以分辨的。这不仅使得从图像中进行检测具有挑战,还导致了难以准确估计视频中的光流与运动线索 [38, 53, 37]。
缺乏清晰的边界,即伪装物体的外观与背景非常相似。这意味着两个主要的难点:
1) 物体边缘往往无缝地混合在背景中,只有当物体运动的时候才能被发现;2) 物体通常有与环境相似的、重复的纹理。因此,想要通过帧间像素点的移动来估计运动(正如光流法所实现的),将难以预测且容易出错。考虑到第一个难点,要想解决 VCOD 任务,神经网络需要在运动信息的帮助下,有效地发现伪装物体与背景之间存在的细微差别。
此外,如图 1 所示,从第二个难点可以得知,运动信息本身是有噪声的,并且是不精确的。因此,将 VOD、VSOD 和 VMS 技术直接或组合地应用于 VCOD 任务, 往往会得到很差的结果。

论文题目:本文提出了一个用于视频伪装物体分割的方法 SLT-Net,并构建了第一个大规模 VCOD 数据集,MoCA- Mask,该研究入选CVPR 2022。
视频伪装物体检测(Video Camouflaged Object Detection,VCOD)是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景(例如:监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]),伪装物体检测(Camouflaged Object Detection,COD)仍是一项有挑战的任务,因为伪装物体往往连人眼都难以分辨。因此,在计算机视觉领域内,与视频目标检测(Video Object Detection,VOD) [48, 1]、视频显著性目标检测(Video Salient Object Detection, VSOD)[16] 以及视频运动分割(Video Motion Segmentation, VMS) [17, 47] 等任务相比,VCOD 仍是一个未被充分研究的问题。
在大多数计算机视觉任务中(例如:实例分割 [52] 和显著性检测 [50]),都假设物体有清晰的边界。因此,在解决此类问题时可依赖于图像层面的信息,并且融合运动信息,还可以进一步提升目标任务的效果。相反,在伪装物体检测中,物体的边缘是模糊且难以分辨的。这不仅使得从图像中进行检测具有挑战,还导致了难以准确估计视频中的光流与运动线索 [38, 53, 37]。
缺乏清晰的边界,即伪装物体的外观与背景非常相似。这意味着两个主要的难点:
1) 物体边缘往往无缝地混合在背景中,只有当物体运动的时候才能被发现;2) 物体通常有与环境相似的、重复的纹理。因此,想要通过帧间像素点的移动来估计运动(正如光流法所实现的),将难以预测且容易出错。考虑到第一个难点,要想解决 VCOD 任务,神经网络需要在运动信息的帮助下,有效地发现伪装物体与背景之间存在的细微差别。
此外,如图 1 所示,从第二个难点可以得知,运动信息本身是有噪声的,并且是不精确的。因此,将 VOD、VSOD 和 VMS 技术直接或组合地应用于 VCOD 任务, 往往会得到很差的结果。

论文链接:Implicit Motion Handling for Video Camouflaged Object Detection
详细解读:https://www.aminer.cn/research_report/627336087cb68b460fb03dfe?download=falseicon-default.png?t=M3K6https://www.aminer.cn/research_report/627336087cb68b460fb03dfe?download=false
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值