【论文笔记】Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

最新推荐文章于 2024-06-21 09:51:18 发布

晓文……

最新推荐文章于 2024-06-21 09:51:18 发布

阅读量870

点赞数 1

分类专栏：目标跟踪多相机协同控制

原文链接：https://sites.google.com/view/pose-assisted-collaboration

版权

多相机协同控制同时被 2 个专栏收录

1 篇文章 1 订阅

订阅专栏

目标跟踪

0 篇文章 0 订阅

订阅专栏

基于姿态辅助的多摄像机协同实现主动目标跟踪

作者信息

[论文地址]

[dome]

介绍

主动目标跟踪（AOT）是智能视觉系统的一项基本实用技术。它要求跟踪器能够控制自己的运动，从而自动跟踪目标。近年来，AOT被广泛应用于各种实际应用中，例如控制移动机器人跟踪移动目标进行电影拍摄或旋转3轴稳定摄像头自动跟踪人脸或行人。

ATO在移动机器人、智能监控等场景中有着广泛的应用然而，在复杂的场景中部署主动跟踪存在许多挑战，例如目标经常被障碍物遮挡。在本文中，将单摄像机AOT扩展到多摄像机场景，其中摄像机以协作方式跟踪目标。

该系统通过共享摄像机姿态来实现主动目标跟踪。在该系统中，每台摄像机配备两个控制器和一个切换器：基于视觉的控制器根据观察到的图像跟踪目标。基于姿态的控制器根据其他摄像机的姿态移动摄像机。在每个步骤中，切换器根据目标的可见性决定要从两个控制器中采取的操作。

在监视场景中应用主动跟踪，主动旋转摄像机，可以长期连续跟踪目标。然而，有两个因素阻碍了AOT系统用于监视场景：

环境的高度复杂性，其中存在遮挡、光照变化、目标和障碍物的尺度变化以及其他使观测不完善的因素。
摄像机移动性的限制，比如相机只能旋转，不能像移动机器人那样移动。因此，单摄像机系统在复杂环境下实现AOT是非常困难的。

提出了一个“姿态辅助多摄像机协作系统”，它利用摄像机姿态之间的内在关系来进一步改进跟踪策略

图1.多相机协作系统概述

图1.系统概述

如图1所示，当目标可见时，摄像机使用其基于视觉的控制器进行动作决策。否则，相机将选择基于姿势的控制器。例如，相机1的基于视觉的控制器无法跟踪。因此，它使用基于姿态的控制器的输出动作，而无用的视觉观察被标记为灰色。

受人类两只眼睛行为的启发，当跟踪一个目标时，两只眼睛一致地指向目标所在的同一点——我们称多个摄像机的协调为行为一致性。为了实现这种一致性，系统中的每个摄像机都配备了两个控制器（一个基于视觉的控制器和一个基于姿态的控制器）和一个切换器。切换器根据目标在捕获图像中的可见性选择要使用的控制器。当目标可见时，采用基于视觉的控制器。当目标被遮挡时，切换器将切换到基于姿态的控制器，取代基于视觉的控制器。实际上，基于姿态的控制器根据所有摄像机的姿态和切换条件来学习关于行为一致性的策略。它的目的是保持摄像机姿态与其他摄像机保持一致，即指向与其他能够观察目标的摄像机相同的区域。我们的方法不需要共享高维的视觉表示，只需要在摄像机之间切换变换器的姿态和条件（指示目标是否可见）。

图2.网络结构

如图2所示，对于每个摄像机，基于视觉的控制器从他的策略网络中以原始图像作为输入，通过CNN(卷积神经网络)进行特征的提取，卷积神经网络的输出是SLTM(长短期记忆神经网络)的输入，通过LSTM处理历史信息，最后经过FC(全连接层)输出动作建议，基于姿态的控制器通过GRU(门控递归神经网络)进行多相机姿态信息的融合，然后经过FC层输出每一个相机的动作建议，切换器是二值分类射你就给你网络网络，相机通过基于视觉的控制网络的SLTM的输出经过切换器中的全连接层输出二值化概率来执行相应的控制器。

实现方法

文中将多摄像机主动目标跟踪问题描述为一个部分可观测的多智能体合作博弈。将马尔可夫博弈扩展到部分观测。

任务是观察是原始像素图像和相机的姿态，动作是相机在两个轴（行，俯仰）或放大/缩小操作中的旋转角度。

总体方案

基于视觉的控制器独立工作，切换器判断基于视觉的控制器是否成功跟踪目标，并决定是否使用基于姿态的控制器的动作。如果基于视觉的控制器失效，摄像机的行为将由基于姿态的控制器控制。基于姿态的控制器以切换器的输出和摄像机的姿态为输入，通过参考其他右摄像机的姿态来修正错误摄像机的姿态。

训练策略

文中采取两阶段的学习训练策略。

在第一阶段，在一个数值模拟器中训练基于姿态的控制器，它只对目标和摄像机的姿态进行数值计算，而不需要渲染图像。基于姿态的控制器不需要图像作为输入，只需观察每个摄像机的姿态（位置和旋转）和切换器的二进制标签（选择视觉或姿态）来旋转相机。由于此阶段没有基于视觉的控制器，因此在每个步骤随机设置切换器的标签。在训练过程中，如果切换器选择了基于姿态的控制器，相机将采取基于姿态的控制器提出的动作。在此基础上，通过强化学习将返回的奖励用于优化策略网络。否则，摄像机将由一个“虚拟跟踪器”控制，该跟踪器将采取近乎最优的动作，以最小化摄像机和目标之间的相对角度误差。为了进一步提高泛化能力，摄像机的分布和目标的轨迹随机化。

在第二阶段，结合第一阶段训练的位置反馈控制器，同时训练基于视觉的控制器和切换器。具体来说，基于视觉的控制器通过强化学习进行训练，同时将切换器作为辅助分类器，即预测目标是否存在于图像中。直观地说，目标的可见性与控制器的选择密切相关，即在目标可见时使用基于视觉的控制器，否则使用基于姿态的控制器。利用二元交叉熵损失对开关进行了优化，虚拟环境通过提取目标掩模为学习提供了依据。只在切换器选择基于视觉的控制器时反向传播基于视觉的控制器的梯度，并且在此阶段冻结基于姿势的控制器的网络参数。

文中利用强化学习（RL）优化每个控制器的策略，原因有二：

在主动跟踪中，摄像机是一个与环境交互的目标定向代理。摄像机感知状态并采取影响状态的动作。在交互问题中，获取各种情况的例子是不切实际的，需要从自身的经验中学习。
在CMC-AOT中，在与环境的交互作用中，存在着许多失败的情况，如目标在图像中消失，目标被图像中的遮挡物完全遮挡等。在这些情况下，相机做出正确的决策会有延迟的回报，因此，在观测不完全的情况下，需要优化长期累积报酬来跟踪目标。姿态辅助多摄像机协作