自监督论文阅读笔记 Multi-motion and Appearance Self-Supervised Moving Object Detection

最新推荐文章于 2024-03-28 01:29:54 发布

YoooooL_

最新推荐文章于 2024-03-28 01:29:54 发布

阅读量1.1k

点赞数 1

分类专栏：论文阅读笔记文章标签：目标检测深度学习人工智能

本文链接：https://blog.csdn.net/YoooooL_/article/details/124589742

版权

论文阅读笔记专栏收录该内容

95 篇文章 48 订阅

订阅专栏

本文考虑了视频中的自监督运动目标检测 (MOD) 问题，其中在训练和推理阶段均不涉及真值。

移动相机可能会带来额外的挑战，这会导致运动独立假设和局部独立背景运动的失败。

为了解决这些问题，本文提出了一种 多运动和外观自监督网络（MASNet）来为MOD 引入场景的多尺度运动信息和外观信息。

运动物体，尤其是可变形物体，通常由不同时间尺度的运动区域组成。引入多尺度运动可以聚合这些区域，形成更完整的检测。

当运动独立性不可靠时，外观信息可以作为 MOD 的另一个提示，并用于消除由局部独立的背景运动引起的背景中的错误检测。

为了编码多尺度运动和外观，在 MASNet 中我们分别设计了一个多分支流编码模块和一个图像修复模块。

Introduction：

运动物体检测（MOD）是人类视觉系统的一项基本能力，可用于广泛的现实世界应用。

视频中关于 MOD 的工作可以根据训练和推理协议的差异大致分为三类：

• 有监督训练/无监督推理 [27,15,26,8]

• 有监督训练/半监督推理 [6, 30]

• 无监督训练/无监督推理[17,21,29,32]。

尽管监督和半监督方法取得了优异的性能，但它们严重依赖大量的精细标记数据，这些数据稀缺且昂贵。为了缓解这些问题，越来越多的精力花在如何有效地挖掘未标记数据的内在信息来监督模型训练上。

由于一个运动对象可以 由多个时间尺度的运动区域 组成，一个时间尺度的时间信息可以简单地编码对象的一部分。例如，在图 1A 中，从 t 到 t+1 的光流捕获了舞者左腿的运动（较小的绿色框）；从 t 到 t + 2 的流程图捕获了他的右腿和身体的运动（较大的绿色框）。不同帧之间舞者的光流图捕捉人体不同的运动区域。

因此，单一尺度的时间信息 不足以进行 全面的MOD。

相机和物体的联合运动 导致 违反运动独立假设。

基于上述分析，当前方法无法对物体的多尺度运动进行编码，也无法处理由移动摄像机引起的问题。

为了解决这些问题，本文提出了一种多运动和外观自监督网络（MASNet），将多尺度时间信息和空间外观信息引入CIS（Contextual Information Separation）[32] 用于 MOD。

MASNet 包含两个组件：1. 多分支流编码 (MFE) 模块 2. IMage InPainter (IMIP) 模块。

• MFE 模块 同时接收多个光流图，对多尺度运动信息进行编码，并在不同时间尺度上聚合检测以形成最终检测。通过这种方式，可以利用多尺度时间信息来生成更全面的检测。

• IMIP 解决由摄像机移动引起的问题。特别是当相机在移动时，运动信息并不完全可靠。为了区分对象与背景并消除背景中的错误检测，IMIP 诉诸于 空间外观信息。这基于物体外观与背景不同的假设。

当检测在背景中时，IMIP 可以 利用周围的外观信息 来恢复它，从而强制掩码生成器产生更好的检测。类似地，对于运动物体中的漏检，IMIP 可以通过周围区域的外观来推断被遮挡的区域。

Contributions：

• MFE 模块 旨在引入各种尺度的运动信息 来聚合不同时间尺度上的检测，从而实现更完整的运动物体检测。

• IMIP 利用空间外观信息 来加强对生成器的新维度的监督。

• 进行综合实验以验证所提出的 MFE 和 IMIP 的有效性，并证明本文的 MASNet 对最先进的方法的优越性能。

[32] 提出了第一个基于深度学习的无监督运动目标检测方法，其中 对抗性学习框架 旨在利用运动场中目标和背景的独立性来生成运动区域。

本文的工作与密切相关的工作 [32] CIS 的差异：

1. 多分支流编码模块在训练阶段每次迭代引入多尺度运动信息，而不是涉及一种时间信息

2. 除了运动信息，我们的方法还考虑了外观信息。基于对象和背景之间的不同特征，设计了一个 图像修复模块 来增强生成器的监督信号。

图3。MFE 模块由几对生成器和流修复器组成。生成器将图像 I、时间 t 及其相应带有帧的光流图 F1, ..., FN , 在时间 t1, ..., tN 作为输入，对多尺度运动信息进行编码并生成各种运动分割掩码。图像 I、分割掩码 M 和掩码流映射图 Fm 被转发到 流修复器 以恢复掩码流图 Fr。

除了针对每个运动尺度的流修复器 flow inpainter 之外，还引入了一个额外的流修复器来恢复 N 帧上的平均运动。

采用图像修复器 重建掩码图像，从外观维度提供监督信息。

MOD的对抗性学习：

图 4 。基本思想是基于目标和上下文运动的独立性假设。

生成器生成一个掩码，修复器无法从上下文运动中推断出掩码区域中的运动。但是，流修复器是从掩码中恢复运动图。这会产生一个 最小-最大问题：

MFE ：

多尺度生成器和修复器的每个分支的损失函数为：

平均流修复器和生成器的目标函数为：

这个修复器可以在训练过程中为生成器 提供额外的监督信息。

IMIP：图像修复器和生成器构建了一种 对抗性学习 关系以相互竞争。

当生成器生成的掩码不准确（包含部分背景或前景）时，IMIP 可以从周围的外观信息中推断出图像中的掩码区域。生成器的目标是使 IMIP 无法恢复被掩码的区域，因此它需要 生成准确的目标掩码。

目标函数为：

训练MAENet：

一对对抗网络并不容易训练，更不用说在一个联合的网络中训练这么多对抗模块。

为了减轻培训过程的难度，本文提出了一个交替培训计划。

首先训练 MFE 模块，直到它稳定为止。然后使用来自冻结的训练得到的生成器输出的掩码 训练 IMIP。在训练完 IMIP 之后，继续用固定的 IMIP 训练 MFE，这样 生成器 就可以同时受到运动和外观信息的监督。最后训练的生成器用于推理以检测运动物体。

图6。黄色实线和虚线框分别表示 MFE 更擅长捕捉运动边界和各种运动尺度，浅蓝色实线和虚线框分别表示 IMIP 可以捕捉相对静态的前景部分和动态的背景部分。

• 与基线相比，本文设计了一个 多分支网络来引入多尺度运动信息，以便在训练和推理阶段，网络可以 利用足够的时间信息 来准确捕获来自目标不同运动区域的运动。从度量 Js 和 Fs 中，MFE 还可以提高模型的稳定性。 MFE 有利于准确的运动捕捉。

• IMIP 可以成功地抑制背景中的错误检测，归因于外观信息的利用。

MFE 和 IMIP 确实解决了基线方法中的两个问题：1）运动利用不足，2）移动相机。

• 由于物体的变形，物体的不同区域 具有 不同的运动信息。通过在训练中引入多尺度信息，模型可以在每批中获取更丰富的运动信息，这对于可变形目标尤其重要。

• 移动相机来捕捉移动的物体，这导致了移动的背景，并且它的运动 并不完全独立于 物体。

仅运动信息的 motion only 方法不足以处理运动物体检测问题。在 IMIP 的帮助下弥补了基线的缺点并获得了有希望的改进。

本文的方法可以更准确地检测人体的可变形部分，并且可以抑制背景的检测。

Conclusion：

提出了一个 MASNet，分别通过多分支流编码 (MFE) 模块和图像修复 (IMIP) 模块 引入多尺度运动 和外观信息 来执行 自监督运动目标检测。

这两个模块专门设计用于解决单一运动尺度和移动相机问题。

MFE 在时间上聚合各种尺度的信息，以捕获运动空间中目标区域的不同尺度，其中单尺度运动可以简单地捕获目标的一小部分。

移动相机问题导致 不独立的 前景和背景运动以及 局部独立的背景运动。因此，纯运动信息不足以区分目标和背景。

IMIP 通过编码目标和背景之间的 空间差异，提供了一种新的信息维度，即外观。

提出的模块的功效和 MASNet 的优越性在 DA VIS 数据集上进行了广泛的评估。

YoooooL_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自监督论文阅读笔记 Multi-motion and Appearance Self-Supervised Moving Object Detection

本文考虑了视频中的自监督运动目标检测 (MOD) 问题，其中在训练和推理阶段均不涉及真值。移动相机可能会带来额外的挑战，这会导致运动独立假设和局部独立背景运动的失败。为了解决这些问题，本文提出了一种多运动和外观自监督网络（MASNet）来为MOD 引入场景的多尺度运动信息和外观信息。运动物体，尤其是可变形物体，通常由不同时间尺度的运动区域组成。引入多尺度运动可以聚合这些区域，形成更完整的检测。当运动独立性不可靠时，外...
复制链接

扫一扫