ViTag ：在线 WiFi 精细时间测量辅助多人环境中的视觉-运动身份关联

原创已于 2022-09-15 16:06:18 修改

· 881 阅读

2 ·

版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#深度学习 #人工智能

于 2022-09-15 13:47:36 首次发布

AI+无线通信专栏收录该内容

11 篇文章

订阅专栏

本文提出了ViTag，一个用于关联多模态数据中用户身份的系统，特别是在相机和智能手机数据之间。ViTag采用序列到序列翻译方法，通过一个名为X-Translator的跨模态编码器-解码器网络学习相机和手机数据的联合表示。在实时关联中，ViTag实现了88.39%的平均身份精度准确度，优于现有方法Vi-Fi。系统对传感器噪声和环境变化具有鲁棒性，并在室内、室外和拥挤环境中显示出稳定的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

在本文中，我们提出了 ViTag 来关联多模态数据中的用户身份，尤其是那些从相机和智能手机获得的数据。 ViTag 将一系列视觉跟踪器生成的边界框与来自智能手机的惯性测量单元 (IMU) 数据和 Wi-Fi 精细时间测量 (FTM) 相关联。我们将问题表述为序列到序列（seq2seq）翻译的关联。在这个两步过程中，我们的系统首先使用多模态 LSTM 编码器-解码器网络 (X-Translator) 执行跨模态翻译，该网络将一种模态转换为另一种模态，例如纯粹从相机边界框重建 IMU 和 FTM 读数。其次，关联模块在相机和电话域之间找到身份匹配，然后将翻译后的模态与来自同一模态的观察数据进行匹配。与现有工作相比，我们提出的方法可以在所有用户可能正在执行相同活动的多人场景中关联身份。在现实世界的室内和室外环境中进行的大量实验表明，相机和电话数据（IMU 和 FTM）的在线关联在 1 到 3 秒的窗口内实现了 88.39% 的平均身份精度准确度 (IDP)，优于最先进的 Vi-Fi (82.93%)。对电话领域内模态的进一步研究表明，FTM 可以将关联性能平均提高 12.56%。最后，我们的灵敏度实验结果证明了 ViTag 在不同噪声和环境变化下的鲁棒性。

索引词——跨模态、精细时间测量、惯性跟踪、对象跟踪、关联

1、简介

由于我们周围有大量传感器，跨多种传感模式关联用户身份对于支持跨异构传感器的多视图学习非常重要。多模态关联有可能适用于需要跨模态识别的广泛应用，例如定位、重新识别和连续跟踪。随着相机和智能手机的广泛使用，一个关键的应用场景是在相机视频中检测到的人与从他们的智能手机捕获的传感器数据之间的关联，如图 1 所示。一个示例应用程序包括向在摄像头上检测到的特定用户设备发送警报消息（即使他们的脸可能不可见）；一个特殊的用例是在当前 COVID-19 大流行期间促进暴露通知。
在这里插入图片描述

为了跨模式关联数据，现有方法需要预定义的视觉特征（例如衣服颜色 [34] 或手势 [7]）、多个 IMU 设备放置 [28]（例如臀部高度的背部）、校准的 IMU 和相机坐标 [11] ，有限的深度变化 [2]，从相机的视野中可见的手指运动 [18]。过去很少有工作专注于关联视觉和惯性数据 [2]、[9]。然而，这些系统不提供实时关联，因此在现实世界场景中不可用。此外，依靠手工制作的特征 [2] 的技术通常在更复杂的场景中失败，其中照明条件变化，多人退出并重新进入相机视图等。Kwon 等人 [16]和 Rey 等人[26]提出了一个自动化管道，将人类活动的视频转换为惯性数据，用于训练常见的人类活动识别 (HAR) 模型。然而，这些方法侧重于捕获用于活动识别的显着特征，而不是用于消除可能都执行相同活动（例如，步行）的多个人的更严格的特征。此外，先前的工作 [23][25]、[36] 具有编码器 - 解码器架构，可同时学习视觉、惯性和特别是 WiFI FTM 数据之间的联合表示。我们提出的工作通过将在多模态数据中捕获的场景中行走的受试者的身份关联起来，进一步推进了这一研究。

方法。在本文中，我们介绍了 ViTag，它将跨相机和电话域的数据关联起来。具体来说，视觉跟踪器用于从相机帧生成轨迹。然后将这些轨迹与从智能手机获得的 IMU 和 FTM 数据进行匹配。我们的框架由一个跨模式编码器-解码器网络 X-Translator 组成，它采用双向 LSTM 以及来自相机的视觉数据与来自智能手机的运动和 WiFi 数据之间的联合表示。 X-Translator 利用联合表示来重建或将一种模态转换为另一种模态。然后将重建的数据（例如，重建的电话数据）与从该模态（捕获的 IMU 测量或 FTM）中观察到的数据实时匹配。鉴于这种方法引发的隐私问题，我们专注于用户选择与相机共享来自手机的传感器数据以及此类应用程序的接入点设置的场景。

挑战。由于数据的异质性，多模式学习提出了独特的挑战。特别是，关联相机和手机传感数据提出了两个重大挑战。首先，每种传感模式在不同的坐标空间中捕获数据。这要求系统能够将数据从相机坐标转换到本地参考系，例如 IMU 的参考系。其次，每种模式都提供不同级别的数据保真度。例如，即使在不影响惯性数据质量的情况下，视觉传感器在低光照条件下也不太有用。同时，惯性传感器数据在较长时间内表现出漂移和累积偏差。同样，FTM 数据中的距离和误差估计也会受到多径的影响。
贡献。为应对上述挑战，我们做出以下贡献：

我们设计和开发ViTag 来关联通过相机（视觉）和智能手机（运动和FTM）数据检测到的对象的身份，实现平均88.39% 的在线关联IDP。
我们提出了一种跨模式编码器-解码器架构X-Translator，它学习相机和手机域之间的联合表示，并将视觉轨迹转换为手机（IMU+FTM）读数，反之亦然。
ViTag 对传感器噪声和从室内到室外多人环境的场景变化具有鲁棒性，在室内、室外和拥挤数据集中分别实现了 90.21%、87.85% 和 87.11% 的关联准确率 (IDP)。

2、系统总览

ViTag 跨两个域关联身份：相机和智能手机。在摄像机观察场景中的人的情况下，如图 1 所示，目标是识别场景中的哪个对象正在携带哪个设备。图 2 显示了系统的概述。我们安装了一个带有 WiFi 接入点的 RGB-D 摄像头，可以俯瞰广阔的空间。场景中的用户带着他们的智能手机四处走动，每个设备都会捕获加速度计、陀螺仪和磁力计数据，同时与接入点交换 FTM 消息。
在这里插入图片描述

使用最先进的跟踪器在相机数据中检测和跟踪对象以生成轨迹。每个 tracklet 是相机坐标系中的一系列边界框。 ViTag 部署了一个两步流程来关联多种模式。首先，跨模态翻译，其中我们提出的 X-Translator 将这些视觉轨迹作为输入并重建相应的电话数据，包括时间序列 IMU 读数和 FTM 数据。据我们所知，X-Translator 是第一个联合学习惯性运动、视觉数据和无线模态的网络。其次，我们使用最大二分匹配（匈牙利算法）将重建的电话数据与从电话域接收到的数据进行实时匹配。

3、跨模式翻译

A. 预处理工作流程
相机数据。我们使用 StereoLabs ZED 跟踪器从 RGB 深度相机数据生成轨迹（在本文的其余部分称为轨迹）。由于主题经常移出相机视野，因此小轨迹的长度通常很短。来自摄像机数据 (Tc) 的轨迹表示为边界框 (BBX) 的时间序列序列。每个边界框表示为：
$\quad T_{c} \in \mathbb{R}^{K \times 5} \tag{1}$

其中 x 和 y 是边界框质心的坐标，d 是质心的深度测量值，w 和 h 是边界框的宽度和高度。

电话数据。为了预处理智能手机数据，我们连接了来自时间序列 IMU 数据的 6 种类型的测量值：
$T_{i}^{t}=[\text { acc } ; \text { grav } ; \text { lin } ; \text { mag } ; \text { gyro } ; q] ; \quad T_{i} \in \mathbb{R}^{K \times 19} \tag{2}$

其中 acc 代表 3 轴加速度计数据，grav 和 lin 是加速度计数据的重力和线性分量。 gyro 和 mag 代表 3 轴陀螺仪和磁力计数据。 q 表示 4 轴四元数数据。在时间 t 的 FTM 测量定义为：
$T_{f}^{t}=[r, s t d] ; \quad T_{f} \in \mathbb{R}^{K \times 2}\tag{3}$

其中 r 表示估计范围，或从手机到 WiFi 接入点的距离，而 std 表示在单个 RTT 突发中计算的标准偏差。

在我们的工作中，一种模态是指一种类型的数据，例如边界框、IMU 读数或 FTM 数据，而域是指源，例如相机或智能手机。因此，在相机域中考虑视觉轨迹（ $T_c$ ），而电话域（ $T_p$ ）由 IMU 和 FTM 数据组成：
$T_{p}=\left[T_{i} ; T_{f}\right] ;\tag{4}$
为了实现准确的实时关联，我们在有限的时间窗口内处理和匹配数据。虽然较长的时间序列窗口可能包含更多可用于关联的判别特征，但它们会增加关联任务的延迟。为了解决这种权衡，我们根据经验选择窗口大小 K 为两个域中所有模式的 10 个样本。由于室内和室外数据集的采样率略有不同，10个样本在室内环境中相当于3秒，在室外环境中相当于1秒。因此，关联总是在不到 3 秒的时间内完成。在每个时间步，最近的 K 个样本被用作网络的输入。

同步。 由于不同的采样率和时间戳，我们需要在将所有模态输入模型之前同步它们。我们使用设备上的网络时间协议 (NTP) 同步相机和手机数据。相机帧的采样率为 30 fps，IMU 读数为 100 Hz，FTM 为 3-5 Hz。此外，相机 (BBX) 和电话 (IMU, FTM) 数据具有 16 和 13 精度时间戳。我们使用来自相机域的数据（下采样到 10 fps）作为锚点来重新采样其他模态。具体来说，对于每个相机帧，我们找到具有最接近时间戳的 IMU 和 FTM 读数。

B. 网络架构设计
X-Translator 的设计灵感来自自动编码器的自我监督能力。与单峰自动编码器不同，XTranslator 需要相机和手机数据之间的标记对应关系。所提出的架构的新颖之处在于将自动编码器方法应用于多种模式。 X-Translator 由三个主要模块组成：(1) 一个编码器，用于学习每个输入模态的单峰表示，(2) 一个学习跨模态潜在特征的联合表示层，以及 (3) 一个解码器，用于重建每个模态 . 该架构如图 3 所示。
在这里插入图片描述

X-Translator 由几个编码器实例组成，每个实例都学习一种模态的表示。编码器包括一个具有 32 个滤波器的一维卷积层，内核大小为 16，步幅为 1，然后是 ReLU 激活函数。然后双向 LSTM 层从 IMU 和视觉模态中提取时间特征，在早期帧到后期帧之间的两个方向上。联合表示通过求和将从单峰数据流中提取的特征集成到单个多峰表示中。最后，每个解码器由两个堆叠的双向 LSTM 层组成，以分层方式提取融合特征。我们使用术语编解码器来指代相同模态的一对编码器和解码器。

模型损失函数。为了学习多模态翻译，我们设计我们的损失函数如下：

Self-reconstruction Loss:
$L_{\text {self }}=\sum_{m \in M} L\left(D_{m}\left(E_{m}\left(X_{m}\right)\right), X_{m}\right) \tag{5}$
Cross-modal Reconstruction Loss:

$L_{\mathrm{cm}}=\sum_{m \in M} L\left(D_{\bar{m}}\left(E_{m}\left(X_{m}\right)\right), X_{\bar{m}}\right)$

Cross-domain Reconstruction Loss:

$L_{\mathrm{cd}}=L\left(D_{p}\left(E_{c}\left(X_{c}\right)\right), X_{p}\right)+L\left(D_{c}\left(E_{p}\left(X_{p}\right)\right), X_{c}\right)$

One-to-all Reconstruction Loss:

$\left.L_{1 \text {-to-all }}=\sum_{m \in M} L\left(D_{M}\left(E_{m}\left(X_{m}\right)\right) \right), X_{M} \right)$

Fused-reconstruction Loss:

$L_{\text {fused }}=\sum_{m \in M} L\left(D_{m}\left(E_{M}\left(X_{M}\right)\right), X_{m}\right)$

Multi-reconstruction Loss:

$L_{\text {multi }}=L\left(D_{M}\left(E_{M}\left(X_{M}\right)\right), X_{M}\right)$
我们用于重建的最终损失函数是这些损失的加权和：
$\begin{aligned} L=& \lambda_{\text {self }} L_{\text {self }}+\lambda_{\mathrm{cm}} L_{\mathrm{cm}}+\lambda_{\text {cd }} L_{\mathrm{cd}}+\\ & \lambda_{1 \text {-to-all }} L_{1 \text {-to-all }}+\lambda_{\text {fused }} L_{\text {fused }}+\lambda_{\text {multi }} L_{\text {multi }} \end{aligned}$

其中 $E_{m}$ 和 $D_{m}$ 分别是模态 m 的编码器和解码器。 M 是所有模态的集合： $\in M, M= \{c, i, f\} ； p$ 代表电话域中的 $i$ 和 $f$ 。 $\bar{m}$ 表示 $L_{\mathrm{cm}}、L_{1 \text {-to-all, }} 、 L_{\text {fused }}$ 和 $L_{{multi }}$ 中的 m 以外的不同模态损失函数。为简单起见，我们使用 $E_{p}、D_{p}$ 来指代电话域中的编码器-解码器，而在实际实现中，有两个独立的 IMU 和 FTM 编码器和解码器。类似地， $E_{M}$ 或 $D_{M}$ 表示所有三种模式的单独编码器或解码器。

这些损失函数背后的一般直觉是训练网络学习跨相机和电话域的联合表示，以进行跨模态重建，同时每个域都有其特定目的。 $L_{{self }}$ 从相同的模态优化重建权重； $L_{\mathrm{cm}}$ 帮助网络从一个到另一个重建模态； $L_{\mathrm{cd}}$ 强制模型学习跨域重构；通过 $L_{\text {1-to-all }}$ ，网络被迫重建仅给定一种模态的所有模态； $L_{\text {fused }}$ 用于在输入所有模态时学习构建一种模态，而 $L_{\text {multi }}$ 损失会强制网络在所有输入可用时重建所有模态。 One-to-all Reconstruction Loss 迫使网络在只有一个可用作输入时学习重建所有其他模态。缺席数据用零表示。我们为所有损失设置相同的权重。
在评估期间，仅使用一种模态作为输入，并重建另一个域中的数据。然后将重建的模态用于关联，如下节所述。
C. 重建路径
鉴于来自两个域的输入模式，重建有两种可能的选择：（a）从视觉轨迹重建电话数据，以及（b）从电话传感器数据重建视觉轨迹（边界框序列）。我们探索这两种选择。

重构的数据用撇号 (') 表示。例如， $T_{p}$ 表示从 smartpthone 设备捕获的数据； $T_{p}^{\prime}$ 表示使用 X -Translator 重建的电话数据。

$T_{p} \longrightarrow T_{c}^{\prime}$ ：边界框序列是根据手机数据重建的。
$T_{c} \longrightarrow T_{p}^{\prime}$ ：电话数据序列是从视觉轨迹重建的。
除非另有说明，否则电话域数据包括 IMU 读数和 FTM。

4、组合

X -Translator 是一种跨模式转换器，可将相机数据转换为智能手机（惯性和 FTM）数据，反之亦然。在将一种模态转换为另一种模态后，我们对观察到的数据和由 X -Translator 重建的数据进行关联。
通过二分匹配关联。关联问题被表述为在二分图中寻找全局最小权重匹配，也称为线性分配问题。为了匹配 $T_{p}^{\prime} 和 T_{p}$ ，第一步是定义一个距离或相异函数，并在图形设置中制定关联问题，其中节点表示模态，边的权重表示距离在两种模式之间可能的分配之间。

我们定义了一个图 $G = (V, E)$ ，其中 V 代表它的节点，E 是节点之间的边集。节点分为两部分。我们将 $V_{p}$ 表示为表示电话轨迹的节点集，将 $V_{p}^{\prime}$ 表示为表示重建的电话轨迹的节点。 $\left|V_{p}\right|和 \left|V_{p}^{\prime}\right|$ 在不同的场景中有所不同。在室内数据集中当 $\left|V_{p}\right| \geq\left|V_{p}^{\prime}\right|$ ，即检测到的轨道 ID 的数量大于重建的轨道 ID 的数量。这是因为大多数时候并非所有用户都在摄像头视图中，但所有电话 ID 始终对系统“可见”。另一方面， $\left|V_{p}\right| \leq\left|V_{p}^{\prime}\right|$ 在户外数据集中，因为在摄像机视图中检测到许多路人（没有电话数据交换的参与者）。我们通过计算 $V_{p^{\prime}} 和 V_{p}$ 上每对节点之间的差异来分配边权重。匈牙利算法 [15] 用于找到从 $V_{p}$ 到 $V_{p}^{\prime}$ 的最佳匹配，该匹配最小化边的总权重，这实质上最大化了两组节点之间候选者的相似性。从最佳匹配中，我们发现了视觉轨迹 ID 和智能手机 ID 之间的关联。

距离函数。一个常见的相异性或关联距离函数是欧几里得距离 (ED)。当不同的模态转化为一种常见的模态时，$\mathrm{ED} $适用于测量多维数据的距离，例如IMU 数据的 19 维向量，无需修改即可应用于不同的重建模式。使用 ED，在电话重建路径中，关联性能可以达到 70% 到 80% 左右。我们使用 ED: Euclidean Distance $\left\|T_{m}-T_{m}^{\prime}\right\|_{2}$ 作为每个模态 m 的默认距离函数，其中 $T^{\prime}$ 是与观察到的数据 T 共享相同模态的重建数据。

我们进一步研究我们的数据，特别是 FTM，它由一个二维向量 $\left(r_{f}, \sigma_{f}\right)$ 组成，其中 $r_{f}$ 是范围估计， $\sigma_{f}$ 是标准偏差。由于均值和标准差可以定义高斯分布，因此每个 FTM 数据点本质上可以视为不同的高斯分布。为了利用 FTM 数据点的统计特征，我们建议在 ED 上探索 Bhattarcharya 距离 (BD) [5]、[6]、[8] 以用于 FTM 模态。 Bhattarcharya 距离的直觉是考虑重叠来衡量两个分布的可分离性。根据定义，两个分布的 Bhattarcharya 距离为
$D\left(f, f^{\prime}\right)=\frac{1}{4} \ln \left(\frac{1}{4}\left(\frac{\sigma_{f}^{ 2}}{\sigma_{f^{\prime}}^{2}}+\frac{\sigma_{f^{\prime}}^{2}}{\sigma_{f}^{2}}+ 2\right)\right)+\frac{1}{4}\left(\frac{\left(r_{f}-r_{f^{\prime}}\right)^{2}}{\sigma_ {f}^{2}+\sigma_{f^{\prime}}^{2}}\right) \tag{12}$

其中 f 是一帧的 FTM 向量。请注意， T_{f} 是由 f 的 K 个样本组成的时间序列 FTM 数据。

5、实验和评估设置

文献中存在多个多模态数据集。然而，这些数据集用于不同的任务，例如基于 IMU 数据的人类活动识别 (HAR) [21]、[30]。据我们所知，综合数据集包括相机数据、IMU 传感器和 WiFi FTM 测量不存在。因此，我们进行了一项 IRB 批准的研究，以收集包括上述模式在内的大规模数据集，包括室内和室外环境。

在本节中，我们将描述我们的实验设置、数据准备和训练以及评估指标。
A. 实验设置
我们设置了一台能够捕捉 RGB 帧和深度 (RGB-D) 的 ZED-2 立体摄像头，以及一个相邻安装在实验室天花板上的 Google Nest WiFi 接入点 (AP)（用于室内测试环境），或安装在室外环境的车顶自行车把手上（模拟室外摄像机的常见杆安装场景），如图 4 所示。摄像机和 AP 彼此相邻安装，以模拟启用 WiFi 的摄像机正在成为越来越普遍。在实验过程中，这些设备从 WiFi AP、摄像头和每个用户的智能手机收集多模式数据。所提出的 X-Translator 模型在配备了 Keras 2.4.3、Tensorflow 2.3.0 和 Python 3.7 中的一个 NVIDIA GeForce RTX 2080 SUPER 显卡的 linux PC (Ubuntu 18.04) 上实现。
在这里插入图片描述

B. 数据集
我们提供三个数据集：Indoor、Outdoor 和 Crowded。我们捕获了 31 个持续时间为 3 分钟的视频序列。平均而言，我们为室内和室外数据集的每个视频序列获得了 575 和 1800 帧。室内实验涉及 5 名受试者，每人携带一部 Google Pixel 3a 智能手机，并以随意和随机的方式（未设置路径限制）穿过房间。由于室内环境中的 COVID 6 英尺社交距离限制，拥挤的数据集仅在室外环境中收集。图 5 显示了来自标记为 Indoor、Outdoor 和 Crowded 数据集的采样帧示例。数据收集过程包括，(i) AP 和每部手机之间以 3-5 Hz 的频率交换的 FTM 消息，(ii) 每个用户手机上以 100Hz 的频率的 9 轴 IMU 数据（加速度计、陀螺仪、磁力计），(iii) 活动登录 AP，以及 (iv) 以 720p 分辨率 (1280 x 720) 以 30FPS 捕获的 RGB-D 摄像机镜头。这些实验是按照 COVID 协议和限制进行了多天。参与者（室内 5 人，室外 2 人）不受携带手机的限制。路人行人的手机没有与接入点通信。 IMU 数据是从 Google Pixel 3a 智能手机设备收集的。此外，记录了磁力计和线性加速度数据，并为数据集计算了四元数数据。一次检测到的行人（手机持有者和路人）的最大数量为 11。但是，由于不受限制的步行模式和摄像头的视野有限，拿着手机的参与者可能会退出并重新进入摄像头的视野.因此，在视觉模式中检测到的行人数量（表示为 |V|）可能小于、等于或大于通过无线信道检测到的参与者手机的数量（表示为 |P|）。两种模式中基数的这种变化对跨模式关联提出了挑战。

在这里插入图片描述

C. 数据准备和培训
数据准备。将摄像机安装在同一位置但在不同的会话中不可避免地会导致不同的摄像机视角。我们通过应用单应矩阵来调整室内数据集中摄像机帧的视角，确保多天的视频帧在空间（用户行走的区域）中对齐，基于 SIFT [19] 之间公共空间中的特征意见。如第 III 节所述，视觉轨迹 $\left(T_{c}\right)$ 表示为一系列边界框，其中每个边界框以 5 维 $\left(T_{c}^{t}\right )$ ，如公式 1 所示。IMU 数据表示为 $T_{i}$ ，即串联传感器数据的序列，如公式 2 所示。在每个时间 t ，串联向量 $T_{i}^{t}$ 包含 19 维数据。除了 IMU，电话数据还包括 FTM 向量。

训练。我们使用配对的拍照手机数据训练 X -Translator。对于地面实况视觉数据，我们使用边界框手动注释数据集中的每一帧以构建轨迹。我们还使用 ZED 跟踪器从视觉数据中获取轨迹，作为获取用于我们分析的轨迹的辅助方法。在这两种情况下，轨迹都标有电话 ID（我们在电话上的数据收集应用程序提供的唯一伪 ID）——为我们提供了关联的基本事实。路人（没有电话数据连接到我们的网络）被标记为“其他”。 Adam 优化器和均方误差 (MSE) 用于训练 X -Translator，学习率为 0.001，批量大小为 32。均方误差 (MSE) 应用于公式 11 中的每个损失函数。

D. 评估指标
评估 ViTag 的主要指标是识别精度 [27] 或 IDP，定义为： $P=\frac{I D T P}{I D T P+I D F P}$ 其中 $I D TP 和 I D FP$ 分别是识别真阳性和识别假阳性。针对 10 个样本 (K=10) 的每个关联窗口计算 IDP。系统以在线模式进行评估，其中处理最近的 K 个样本以确定关联。我们的系统通过对室内和室外数据集的留一法交叉验证 (LOOCV) 进行评估。每个数据集由 15 个序列组成。为了在更具挑战性的拥挤场景中评估我们的系统，我们专门在一个帧中保留一个最多 11 个主题的序列作为拥挤测试集，以评估在户外数据集中训练的模型。
E. 基线
我们将 ViTag 与两个基线进行比较。第一种是依赖于行人航位推算 (PDR) [33] 和 procrustes 分析 (PA) [10]、[14] 的手工关联技术。作为第二个基线，最先进的 Vi-Fi [17] 被用作深度学习基线。
手工制作的基线。我们根据相机和手机数据计算 3D 轨迹，并根据使用 PA 测量的形状相似性来匹配它们。使用 PDR 计算来自惯性传感器数据的轨迹，其中从加速度计和磁力计计算的航向 phi 与成人的平均步长 $(l=0.8\mathrm{~m})$ 相结合，以确定下一个电话位置。电话域中的 3D 位置定义为 $\hat{T}_{p}^{t}=\left(x_{p}^{t}, y_{p}^{t}, r_{p}^ {t}\right)$ 其中 r_{t} 是 FTM 范围。视觉轨迹由边界框质心坐标和深度计算，其中 3D 点定义为 $\hat{T}_{c}^{t}=\left(x_{c}^{t}, y_{c}^{ t}, d_{c}^{t}\right)$ 。我们规范化 $\left(x_{p}^{t}, y_{p}^{t}\right)$ 使其与 $\left(x_{c}^{t}, y_{c} ^{t}\right)$

然后在下一步中使用 PA 进行关联。 PA 测量两个矩阵之间的形状相似性，其中应用从一个矩阵到另一个矩阵的最佳矩阵变换（包括缩放/膨胀、旋转和反射），以使两个矩阵之间的平方差之和最小化。我们遵循第四节中描述的二分匹配方法来关联 $\hat{T}_{p} 和 \hat{T}_{c}$ ，使用它们的形状之间的不相似度得分（从 PA 获得）作为边缘权重来找到该协会。我们认为这是一个合适的手工基线，因为它采用了常用的技术，其中形状相似性可以处理手机（本地参考框架）和相机（图像平面）之间坐标系的差异。我们用 PDR+PA 来指代这种方法。

深度学习基线。 Vi-Fi [17] 分别为相机和电话模式（IMU 和 FTM）采用基于双流 LSTM 的编码器，然后是特征集成和降维层。在最后一步中，学习了一个亲和矩阵层来预测两种模态之间的关联决策。与 Vi-Fi [17] 不同，ViTag 中的 X-Translator 使用联合表示和分离的模态解码器，没有亲和矩阵层。

6、评价

A. 整体表现
关联评估。与基线相比，ViTag 的性能总结在表 I 中。总体而言，我们的系统实现了最高的关联性能。具体来说，ViTag 在所有数据集中实现了 88.39% 的平均 IDP，分别比 PA+PDR 的 38.41% 和 Vi-Fi 的 82.93% 高 49.98% 和 5.46%。
在这里插入图片描述

ViTag 优于两个基线，在室内、室外和拥挤的测试集中分别实现了 90.21%、87.85% 和 87.11% 的平均 IDP，如图 6 所示。请注意，关联结果是在 10 个样本的滑动上执行的具有 90% 重叠的窗口，对应于室内数据集中约 3 秒和室外数据集中 1 秒。
在这里插入图片描述

重建的影响。 ViTag 执行跨模态重建，然后进行关联。我们旨在了解 X-Translator 的重建能力如何影响关联。

为此，我们在训练过程中分析了一组具有不同权重的模型。模型由 LOOCV 的测试序列 (Seq) 编号表示，特别是图 7 中所示的 Seq 2 和 7。权重在训练期间单独保存。重建测量跨模态重建质量的验证损失。具有较大验证损失的权重代表早期训练阶段的模型。图 7 显示了在两个序列中测试的模型（Indoor 中的 Seq 2、Outdoor 和 Crowded 数据集中的 Seq 7）的验证损失和 IDP 之间的关系。观察到更高的跨模态重建质量（更低的验证损失）趋于导致更高的 IDP。
在这里插入图片描述

B. 微基准

在本小节中，我们分析了 ViTag 对系统设置的各种因素的敏感性。
1）FTM 距离函数的影响：我们实验不同的距离函数如何影响关联。除了欧几里得距离 (ED)，我们还探索了 Bhattacharyya 距离函数 (BD)。 Ti’ED 通过消融 Wi-Fi 模态表示仅使用 ED 的基于相机 IMU 模态的关联性能。

2）IMU噪声的影响：我们分析了IMU数据中噪声对关联性能的影响。零均值高斯噪声被注入到 IMU 数据的每个维度。然后将原始 IMU 向量替换为 IMU 向量 $\hat{M} U$ ，其中噪声作为我们模型的输入和输出： $\hat{T}_{m_{d_{i}}}^{t}= T_{ m_{d_{i}}}^{t}+\epsilon, \quad \epsilon \sim \mathcal{N}\left(0, \sigma_{d_{i}}^{2}\right)$ ，其中 $T_ {m_{d_{i}}}^{t}$ 是 $i^{th}$ 维向量。 $\mu=0$ 和 $\sigma_{i}$ 是 $T_{m_{d_{i}}}^{t}$ 的标准差。 $\sigma_{d_{i}}$ 特定于每个维度，因为每个传感器的范围不同（例如，加速度计、陀螺仪和磁力计）。
在这里插入图片描述

对于每个 IMU 传感器的每个维度，噪声以测量范围的 0% 到 50% 的不同水平注入。对于一个测试序列，针对每个数据集中的每个噪声级别重复十次实验。结果如图 9 所示，分别在室内（序列 #3 和 #6）和室外（序列 #4 和 #9）数据集（0 索引）中具有相对高和低 IDP 的测试序列。一个数据集中的每条垂直线表示对上述两个测试序列的总共 20 次实验（2 组 10 次重复实验）。除了噪声注入，我们遵循 VI-A 中的相同设置。总体而言，结果表明我们的系统对 IMU 噪声具有鲁棒性。
在这里插入图片描述

3）检测到的人数的影响：为了了解摄像机视图中检测到的行人数量如何影响关联，每帧 IDP 的统计数据如图 10 所示。总体而言，IDP 抖动在 80% 和 90% 之间，表明 ViTag 的性能是稳健的每帧检测到的人数。请注意，在 Indoor 数据集中，有些人会走出相机视图，这使得关联更具挑战性（例如，当手机数量 ≥ 1 时），当检测数量仅为每帧 1 时，会导致更高的方差。
在这里插入图片描述

7、相关工作

基于视觉的检测和跟踪。深度神经网络已被用于检测摄像机视图中的人并生成跨帧的轨迹，使用边界框坐标序列 [4]、[35] 表示。这些轨迹比使用手工特征[22]的轨迹更准确。我们在提议的关联算法中利用由最先进的视觉跟踪器 [4] 生成的视觉轨迹（称为 tracklets）。

惯性跟踪。惯性传感器已用于手持设备。席尔瓦等人[29]开发并训练了一个基于 LSTM 的网络来重建移动轨迹。 IMU 还能够分析用户运动，并可用于识别 [38]。我们利用从 IMU 传感器获得的运动信息进行跨模式关联。

无线测距。无线数据具有广泛的应用用途，包括使用视觉传感器进行定位 [3]、边界框估计 [20]、WiFi 测距测量 [12] 等。在 IEEE 802.11-2016 中引入的精细定时测量 (FTM) 协议 (802.11REVmc)标准 [1] 旨在通过接入点 (AP) 和 WiFi 站 (STA) 之间的往返时间 (RTT) 执行无线测距。

多模态关联。已经有大量关于跨不同模式匹配身份的研究[2]，[9]。与 ViTag 最接近的工作是 Vi-Fi [17]——一种基于深度学习的方法，它应用亲和力损失来学习相机、IMU 和 FTM 读数上的身份分配。类似于 Sun 等人[31] Masullo 等人 [23]、[24] 使用三元组损失将轮廓图像和深度学习特征的加速度联系起来。可以学习联合表示[25]以融合编码器-解码器架构中的不同模态。在 Akbari 等人的工作中。 [2]，相关性是通过将 RGB 图像平面中的加速度映射到物理加速度以手工方式完成的，但它在有限变化的深度变化、多人、不同的亮度或视线运动方向上失败。视觉与 IMU 关联的研究还包括 PHADE [7]、IDIoT [28] [11]、[37] 等。

由于数据集、方法和实验设置的差异，不太可能在以前的工作和 ViTag 的性能之间进行直接和公平的比较。因此，我们根据几个参数阐明和总结表 II 中的区别。与过去的工作相比，我们的系统 ViTag 在更具挑战性的现实世界场景中执行，每人需要更少的设备，同时依赖于更短的测量序列。
在这里插入图片描述

8、结论

在这项工作中，我们探讨了与跨模式关联相关的挑战和解决方案。我们设计了 ViTag 来将摄像头流中视觉检测到的人与相应的智能手机 ID 相关联。我们提出了 X-Translator，它是一种基于多模态 LSTM 的自动编码器，它在训练期间学习模态之间的联合表示，并将来自相机模态（视觉轨迹）的数据转换为电话域（IMU 读数和 FTM）。这使我们能够重建手机数据轨迹并将它们与观察到的手机轨迹实时匹配以关联身份。我们的系统以在线方式实现了 88.39% 的平均身份精度 (IDP)（室内、室外和拥挤数据集中分别为 90.21%、87.85% 和 87.11%），优于最先进的方法 Vi -Fi (IDP = 82.93%) 在不同的现实世界环境中。

未来的方向包括将 ViTag 推广到不同的相机视图，利用跨模态注意机制来学习更好的联合表示以提高关联性能。