#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

最新推荐文章于 2022-11-17 23:27:15 发布

wwwsxn

最新推荐文章于 2022-11-17 23:27:15 发布

阅读量352

点赞数

分类专栏：深度学习文章标签：计算机视觉人工智能深度学习

原文链接：https://www.aminer.cn/research_report/627336087cb68b460fb03dfe?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

本文提出了一种名为SLT-Net的视频伪装物体分割方法，并创建了首个大规模VCOD数据集MoCA-Mask。在CVPR2022上发表的研究揭示了VCOD的挑战，由于伪装物体与背景的高相似性，使得边缘模糊，运动信息噪声大，对现有技术应用效果不佳。SLT-Net旨在利用运动信息有效识别伪装物体。

摘要由CSDN通过智能技术生成

#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

本文提出了一个用于视频伪装物体分割的方法 SLT-Net，并构建了第一个大规模 VCOD 数据集，MoCA- Mask，该研究入选CVPR 2022。
视频伪装物体检测（Video Camouflaged Object Detection，VCOD）是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景（例如：监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]），伪装物体检测（Camouflaged Object Detection，COD）仍是一项有挑战的任务，因为伪装物体往往连人眼都难以分辨。因此，在计算机视觉领域内，与视频目标检测（Video Object Detection，VOD） [48, 1]、视频显著性目标检测（Video Salient Object Detection, VSOD）[16] 以及视频运动分割（Video Motion Segmentation, VMS） [17, 47] 等任务相比，VCOD 仍是一个未被充分研究的问题。
在大多数计算机视觉任务中（例如：实例分割 [52] 和显著性检测 [50]），都假设物体有清晰的边界。因此，在解决此类问题时可依赖于图像层面的信息，并且融合运动信息，还可以进一步提升目标任务的效果。相反，在伪装物体检测中，物体的边缘是模糊且难以分辨的。这不仅使得从图像中进行检测具有挑战，还导致了难以准确估计视频中的光流与运动线索 [38, 53, 37]。
缺乏清晰的边界，即伪装物体的外观与背景非常相似。这意味着两个主要的难点：
1) 物体边缘往往无缝地混合在背景中，只有当物体运动的时候才能被发现；2) 物体通常有与环境相似的、重复的纹理。因此，想要通过帧间像素点的移动来估计运动（正如光流法所实现的），将难以预测且容易出错。考虑到第一个难点，要想解决 VCOD 任务，神经网络需要在运动信息的帮助下，有效地发现伪装物体与背景之间存在的细微差别。
此外，如图 1 所示，从第二个难点可以得知，运动信息本身是有噪声的，并且是不精确的。因此，将 VOD、VSOD 和 VMS 技术直接或组合地应用于 VCOD 任务，往往会得到很差的结果。

论文题目：本文提出了一个用于视频伪装物体分割的方法 SLT-Net，并构建了第一个大规模 VCOD 数据集，MoCA- Mask，该研究入选CVPR 2022。
视频伪装物体检测（Video Camouflaged Object Detection，VCOD）是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景（例如：监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]），伪装物体检测（Camouflaged Object Detection，COD）仍是一项有挑战的任务，因为伪装物体往往连人眼都难以分辨。因此，在计算机视觉领域内，与视频目标检测（Video Object Detection，VOD） [48, 1]、视频显著性目标检测（Video Salient Object Detection, VSOD）[16] 以及视频运动分割（Video Motion Segmentation, VMS） [17, 47] 等任务相比，VCOD 仍是一个未被充分研究的问题。
在大多数计算机视觉任务中（例如：实例分割 [52] 和显著性检测 [50]），都假设物体有清晰的边界。因此，在解决此类问题时可依赖于图像层面的信息，并且融合运动信息，还可以进一步提升目标任务的效果。相反，在伪装物体检测中，物体的边缘是模糊且难以分辨的。这不仅使得从图像中进行检测具有挑战，还导致了难以准确估计视频中的光流与运动线索 [38, 53, 37]。
缺乏清晰的边界，即伪装物体的外观与背景非常相似。这意味着两个主要的难点：
1) 物体边缘往往无缝地混合在背景中，只有当物体运动的时候才能被发现；2) 物体通常有与环境相似的、重复的纹理。因此，想要通过帧间像素点的移动来估计运动（正如光流法所实现的），将难以预测且容易出错。考虑到第一个难点，要想解决 VCOD 任务，神经网络需要在运动信息的帮助下，有效地发现伪装物体与背景之间存在的细微差别。
此外，如图 1 所示，从第二个难点可以得知，运动信息本身是有噪声的，并且是不精确的。因此，将 VOD、VSOD 和 VMS 技术直接或组合地应用于 VCOD 任务，往往会得到很差的结果。

论文链接：Implicit Motion Handling for Video Camouflaged Object Detection
详细解读：https://www.aminer.cn/research_report/627336087cb68b460fb03dfe?download=falsehttps://www.aminer.cn/research_report/627336087cb68b460fb03dfe?download=false
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

#今日论文推荐# CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA本文提出了一个用于视频伪装物体分割的方法 SLT-Net，并构建了第一个大规模 VCOD 数据集，MoCA- Mask，该研究入选CVPR 2022。视频伪装物体检测（Video Camouflaged Object Detection，VCOD）是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景（例如：监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [1
复制链接

扫一扫

专栏目录