阅读笔记：Towards Environment Independent Device Free Human Activity Recognition-CSDN博客

提出EI框架，一种基于深度学习的无设备行为识别方法，能消除环境和对象特定信息，提取通用特征。在WiFi、超声波、60GHzmmWave和可见光四平台验证，具优越性和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

现有的系统面临的主要挑战是到达接收器的无线信号通常带有关于环境和目标人体动作的大量特定信息。因此，一个在特定环境特定对象上训练的行为识别模型在别的环境下表现不好。为了解决这个问题，我们提出了EI，一个基于深度学习的无设备行为识别框架，它可以消除数据中环境和对象的特定信息，并且提取不依赖环境和对象的特征。我们在四种不同的实验工具上进行实验：WIFI，超声波，60 GHz mmWave和可见光。实验结果证明了所提出的EI框架的优越性和可推广性。

1 引言

无设备识别方法基本上由共同的想法：通过提取和分析在无线设备之间传播的信号，可以推测在发射器和接收器之间的人体的动作，因为他的动作会导致无线信号的变化。
虽然涌现出了很多的方法，仍然面临一个挑战，就是无线信号会携带大量环境和人体的特定信息。一方面，信号在传输时可能会被周围环境中的介质（例如，空气，玻璃）和物体（例如，墙壁，家具）穿透，反射和衍射。另一方面，年龄，性别，身高，体重和身材不同的不同人类受试者，即使他们从事相同的活动，也会以不同的方式影响信号。因此，一个在特定环境特定对象上训练的行为识别模型在别的环境下表现不好。
为了解决这个问题，我们提出了EI，可以消除特定环境和特定人体的影响。EI的核心是一个对抗网络，包含三个主要组件：特征提取器、行为识别器和领域区分器。特征提取器是一个CNN，与行为识别器一起来完成人体行为识别的主要任务，同时尽量fool领域区分器来学习学习环境人体无关的表示。
为了应对实际的但具有挑战性的方案，其中对于大多数环境/对象，收集的活动数据是未标记的，所提出的模型不仅利用了标记的数据，而且还利用了未标记的数据中包含的信息。此外，为了解决各种实际问题，在提出的模型中，我们还设计了三个可以显着提高预测性能的约束。
我们基于不同的无线技术，在四个不同的设备免费活动识别测试床上进行了广泛的实验：WiFi，超声，60 GHz mmWave和可见光。实验结果表明，所提出的EI框架具有出色的效率和通用性。

2 系统概述

在这里插入图片描述
这部分我们提供了系统的大体框架，如图1所示，EI由三个组件构成：数据采集、数据处理和深度学习模型。

数据采集: 我们考虑到在不同环境（例如，不同房间）中监视人类活动，并且在每种环境中都有一些环境设备，其产生的信号（例如，WiFi和声音）会受到人类的影响活动。我们的系统首先在监视过程中收集每个环境中的活动数据（即，受影响的信号）。
数据处理: 对于一些环境，手工标注了一部分采集的数据，而另一些数据则没有标注。我们的目标是基于所有采集的数据训练一个预测模型。我们首先标准化信号并且转换成方便分析的形式。最终把转换的信号分割撑短的片段来训练行为识别模型。
深度学习模型: 采集的数据在处理后还是可能会非常复杂，这使得传统的机器学习算法很难描述这些数据的基本模式。因此利用深度学习技术来处理。具体地说，我们提出了一个联合了对抗网络的深度学习模型来预测未标注的动作。这个模型同时利用了标注和未标注的数据。同时，可以消除领域的特殊性并且提取跨域特性。

3 方法

在这里插入图片描述
在这篇论文中，我们考虑一个一般的和实际的问题设置:收集标记数据的环境与收集未标记数据的环境是不同的。该问题设置要求所提出的方法必须能够学习适用于不同环境的可转移特性，即，环境无关的表现。
首先，输入数据被特征提取器转换成低维表示 $Z$ ，特征提取器包括三层CNN。通过学习到的特征表示，行为识别器可以获取所有输入数据的预测值 $\overset{-}{y}$ ，为了消除领域特征，一个领域区分器标注所有领域（比如识别哪些活动是由哪些主体在何种环境下进行的）。领域区分器的输入是 $Z$ 和 $\overset{-}{y}$ 。在两层全连接网络和softmax之后，我们可以得到领域标签分布 $S$ ，领域区分器的目标是最大化领域标签预测值，这与我们的最终目标相反。为了解决这个问题，特征提取器尽最大可能来不让领域区分器识别出来，同时增强行为识别器的表现。通过这种对抗方法，最终可以得到领域无关特征。

3.1 模型输入

提出的模型可以通过不同类型的信号识别人体活动。我们提供了一个模型输入的通用描述符，细节在第四节。
首先，我们将有标签的领域和没有标签的领域分别成为源领域和目标领域。我们考虑了多个源域和目标域的情况。令 $X$ 为所提出的模型的输入活动数据，它包括了两个部分：标注了的人类活动 $X^l$ 和未标注的活动 $X^u$ 。每个数据 $X_i$ 都有一个相应的领域标签 $d_i \in D$ ，这里 $D$ 表示所有源域和所有目标域的集合。每个标注的数据 $X^{l}_i \in X^l$ 都有一个真实的活动标签 $y^l_i \in Y$ 这里 $Y$ 是所有活动的集合。令 $d$ 表示 $X$ 的领域标签向量，并且 $y^l$ 是 $X^l$ 的真实标签向量。因此，我们模型的输入是活动数据 $X$ ，领域标签向量 $d$ 和标签数据 $y^l$ 。输出是每个未标注活动 $X^u_i \in X^u$ 的估计的标签 $y^u_i$ 。

3.2 特征提取器

我们使用CNN来提取活动特征，我们使用三层叠放的CNN来提取特征。对每层CNN，使用2D卷积核作为滤波器，然后是批归一化层，以标准化每层数据的均值和方差。最后我们加入一个ReLU引入非线性，以及一个最大池化层来减少特征大小。令 $Θ$ 为CNN的参数集合。给出输入数据 $X$ ，我们能够得到特征表示如公式（1）：
$Z = C N N (X; Θ)$

3.3 活动识别器

&ems;基于特征提取器的输出 $X$ ，一个全连接层加上一个激活函数，用来学习 $X_i$ 的表示 $V_i$ ，如公式（2）：
$V_i=Softplus(W_zZ_i)+b_z$
其中 $W_z$ 和 $b_z$ 是需要学习的参数，而softplus函数是激活函数，来引入非线性。为了预测人类活动标签，我们需要将特征表示 $V_i$ 映射到新的潜在空间 $H_i \in R^C$ 中，其中 $C$ 是人类活动的数量。此外，使用softmax层获得活动的概率向量，如下所示
在这里插入图片描述
其中， $W_V$ 和 $b_v$ 都是参数。模型的输入数据包括标注的和未标注的活动，因此 $\hat{y}=[\hat{y}^l,\hat{y}^u]$ ，其中 $\hat{y}^l$ 表示预测的标注数据的可能性，而 $\hat{y}^u$ 表示预测的未标注数据的可能性。
对于标注数据，交叉熵函数可以用来计算预测值和真实值的损失：
在这里插入图片描述
其中 $X^l|$ 是标注数据的数量。实际上，公式4足以学习模型参数并对未标记的数据进行预测。然而，当标签信息有所限制，合并未标注数据可以帮助模型来提高预测准确率。对于未标注数据，我们也可以使用交叉熵来计算损失：
在这里插入图片描述
其中 $X^u|$ 是未标注数据的数量。通过最小化再公式5中的熵，我们可以增加对未标记数据的预测的置信度，从而使分类器决策边界远离未标记数据。
在本文中，我们考虑了人类活动识别的实际但具有挑战性的场景，即对于很大一部分域（即环境对象对），没有活动数据被标记。这要求分类器能够学习所有域共享的通用活动特征，即，新的或未看到的域的可转移活动表示。此类功能应与环境无关，并且不包含任何特定于域的信息。为了实现此目标，我们需要删除每个域中活动的唯一性。具体来说，我们使用领域适应技术来捕获与环境无关的活动特征。

3.4 领域区分器

域自适应是一种旨在学习域之间映射的技术。当目标域完全未标记时，该技术称为无监督域自适应。在本文中，我们采用无监督领域对抗训练技术来充分利用未标记数据来消除活动的领域特定性唯一性。特别是，我们旨在设计一个域识别器，其目的是识别记录有活动的环境，以迫使特征提取器（其目标是欺骗域识别器）生成与环境无关的活动特征。
我们首先将特征提取器的输出矩阵（即 $Z$ ）和预测矩阵 $\hat{y}$ 连接起来，如下所示：
在这里插入图片描述
这里 $\oplus$ 是串联操作。由于 $Z$ 同时包含了领域无关和领域有关特征，为了确定跨域的共性，我们将 $Z$ 考虑在内。更多地，一些特征，虽然是领域有关的，但是对于活动识别任务是有帮助的。因此我们仍然需要保留这些特征。这可以通过将串联的 $Z$ 和 $\hat{y}$ 作为领域区分器的输入。
然后，两个全连接层和相应的激活函数被用来将 $F$ 映射到领域分布 $S$ ，如下：
$U_i=Softplus(W_fF_i+b_f)$
$S_i=Softmax(W_uU_i+b_u)$
其中， $W_f$ ， $b_f$ ， $W_u$ ， $b_u$ 都是参数。 $U_i$ 是在潜在空间中的表示。为了使领域区分器能够识别输入活动的领域标签，我们定义了领域分布和真实领域标签的损失，如下：
在这里插入图片描述
其中 $D$ 表示领域的数量，并且 $d_i$ 是真实域标签的一元向量。领域区分器的目标是最小化损失函数 $L_d$ ，即最大化领域标签预测的表现，这与我们的最终学习领域无关特征的目的相反。为了解决这个矛盾，我们提出在最终目标函数中最大化领域区分器的损失 $L_d$ 。基于公式4、公式5和公式9，我们能够获得损失函数如下：
在这里插入图片描述
其中 $\alpha$ 和 $\beta$ 是权重。通过公式10，我们可以观察到特征提取器通过最大化 $L_d$ 尽可能地欺骗领域区分器，同时，通过最小化 $L_a$ 和 $L_u$ 增强动作识别器的表现。通过这个最大最小化游戏，我们能够学习到活动的领域无关特征，并且最终获得未标记数据的预测标签。

3.5 约束

没有大量的数据，深度神经网络往往会过拟合，最终导致不好的表现。在实际的无设备活动识别情况中，采集大量活动数据通常是非常困难的。因此，如何用有限的数据来避免过拟合是对我们的无监督领域适应模型来说非常重要的问题。为了解决过拟合问题，我们提出两个有效的约束：置信控制约束和平滑约束。他们旨在处理overconfidence和潜在空间不平滑，即两个过拟合的典型表现。
为了更进一步提高模型的表现，我们也提出了一个平衡约束，可以将标签分布的先验知识整合到训练数据中，以提高训练过程的稳定性。

3.5.1 置信控制约束

过拟合的一个征兆是模型将所有概率置于训练集中的单个类别时overconfidence。如果模型对未标记数据的估计overconfident，则可能会过早收敛并陷入劣等的局部最优状态，这可能会降低测试模型的性能。为了解决这个问题，我们提出一个置信控制约束：当 $\hat{y}_{ic}$ 置信度过高时惩罚它。置信控制约束的损失函数定义如下：
在这里插入图片描述
如果 $\hat{y}_{ic}$ 达到0或1，惩罚将趋于无穷。

3.5.2 平滑约束

潜在空间不平滑是过拟合的另一常见症状。当对数据点 $X_i$ 的预测与特征空间 $Z$ 中其相邻节点的预测显著不同时（即，分类器在相邻数据样本之间突然更改其预测），就会发生这种情况。在这种情况下，提出的模型将学习到不可靠的估计。在无监督域适应设置下，没有标记信息会通过损失函数，即等式（10），对目标域中未标记数据的错误预测进行惩罚，这将加剧平滑问题。为避免此问题，我们向等式10损失函数添加了平滑约束。
在监督领域对抗训练模型中，加入平滑约束时非常简单的。如果一对数据又相同的标签，那么他们在特征空间的距离是很近的。然而，在无监督领域适应中，一些数据样本没有标签。因此，这种方法不能直接应用到无监督方法中。为了解决这个问题，我们提出对每个输入样本 $X_i$ 在潜在特征空间 $V_i$ 中加入 $M ϵ - n e i g h b o r s$ 。这和在 $V_i$ 中加入高斯噪声 $r_m$ 是等价的，表示成 $V^m_i-V_i+r_m$ 。然后，将 $V_i$ 和 $V^m_i$ 的预测之间的Jensen-Shannon散度计算为平滑约束的损失值。
数学上，我们对潜在表示 $V_i$ 加上 $M$ 个小的中心各向同性高斯噪声 $r_m~N(0,ϵ I)(m \in \{1,...,M\})$ 。我们还强制要求，在通过标签预测变量（即等式（3））之后，从表示为 $\hat{y}^m_i$ 的噪声预测的标签分布应接近于根据原始潜在表示（即 $\hat{y}_i$ ）预测的标签分布。我们通过最小化它们之间的Jensen-Shannon散度来实现这一目标。Jensen-Shannon散度是一种计算两个概率分布之间相似度的方法。它基于Kullback-Leibler散度，但它是对称的，并且始终返回有限值。假设分布 $\hat{y}_i$ 和 $\hat{y}^m_i$ 之间的Kullback-Leibler散度可以表示为 $KL(\hat{y}_i||\hat{y}^m_i)$ ，那么它们之间的Jensen-Shannon散度可以定义如下：
在这里插入图片描述
因此，平滑约束的平均损失可以表示试下：

3.5.3 平衡约束

我们发现，在一些情况下，模型倾向于将相同的标签分配给与多个相似但不同的活动相对应的数据样本。为了解决此问题，我们在损失函数中添加一个平衡约束，该约束首先根据我们的先验知识或标记数据估算每个活动的百分比，然后在活动的最终预测中强制执行估算的百分比。令 $P_c$ 为活动 $c$ 的估计百分比或已知百分比。预测 $∣ X ∣$ 样本的标签后，我们可以获得大小为 $\times C$ 的预测矩阵。 $\hat{y}_{ic}$ 是 $X_i$ 被标记为第 $c$ 个活动的概率， $d_i$ 是其领域标签。我们引入辅助分布 $q_i$ 作为平衡标签的预测概率。我们通过对所有拥有相同域标签 $d_i$ 的活动 $c$ 的预测进行标准化来计算 $q_{ic}$ ：
在这里插入图片描述
获得辅助分布 $q_i$ 后，我们定义平衡约束为 $\hat{y}_i$ 和 $q_i$ 之间的Jensen-Shannon散度：

3.6 目标与训练

有了以上所有的约束，我们最终能够给出总的损失函数如下：
在这里插入图片描述
其中, $\gamma$ 和 $\eta$ 是提前定义好的超参数。
在训练过程中，我们迭代地更新参数。令 $\Omega=\{\Delta,\Gamma\}$ 为所有参数地集合，其中 $\delta=\{W_f,b_f,W_u,b_u\}$ 表示在领域区分器里地参数，并且 $\Gamma=\Omega-\Delta$ 。我们首先固定 $\Delta$ 并且更具Adam更新剩下的参数，如 $\Gamma$ ，然后固定 $\Gamma$ 来更新 $\Delta$ 。

4实验

4.1 Baseline模型

我们将我们的方法与两个最新的领域适应深度学习模型CAT和VADA进行比较，还有最广为使用的传统分类模型：随机森林。

4.2 WiFi信号实验

4.2.1 Channel State Information(CSI)

在这部分，我们利用CSI来分析人类活动对WiFi信号的影响。CSI是指无线通信中通信链路的已知信道属性。此信息描述了信号如何从发射机传播到接收机，并表示例如散射，衰落和功率衰减随距离的组合效应。支持IEEE 802.1n / ac标准的现代WiFi设备具有多个发射和接收功能线，因此可以在MIMO（多输入多输出）模式下传输数据。在正交频分复用（OFDM）系统中，每对发射和接收天线之间的信道由多个子载波组成。可以将在第 $s$ 个子载波（ $s\in\{1，2，…，N_s\}$ ）上拥有 $N_t$ 个发射器和 $N_r$ 个接收器的窄带平坦衰落信道建模为：
$y=H^T_s \times x+n$
其中 $y\in C^{N_r\times 1}$ 表示接收向量， $H_s\in C^{N_t\times N_r}$ 是第 $s$ 个子载波上的信道矩阵， $x\in C^{N_t\times 1}$ 是发射向量， $n\in C^{N_r\times 1}$ 表示噪声向量。噪声通常被建模为 $n C N (0, S)$ 的圆对称复正态，其中平均值为零，并且噪声协方差矩阵 $S$ 是已知的。每个子载波的CSI值是 $H_s$ 的一个估计。由于有 $N_s$ 个子载波，最终的CSI可以表示为一个多维矩阵 $H\in C^{N_s\times N_t \times N_r}$ 。我们使用论文¹ 中的方法来获得30个OFDM子载波的CSI值。因此 $H$ 的维度为 $30\times N_t \times N_r$ 。CSI会被用为识别人体活动的主要原因是它容易被人类的存在和它们的活动影响。特别地说，人体可能会阻塞视线（LOS）路径并衰减信号功率。另外，人体可以引入更多反射信号并且改变传播路径的数量。因此CSI的多样性可以显示人体在WiFi环境下的运动。

4.2.2实验设置

在这里插入图片描述

在实验中，我们让11个志愿者（包括男性和女性）作为目标，从6间不同的房间在2个不同的建筑中采集CSI数据。图3展示了其中一间房间的实验设置。特别的，我们建立了一个WiFi设施，包括了一个发射器（一个无线路由器）和两个接收器。我们选择使用Intel5300网卡来采集CSI数据，传输速率设置为每秒200个包 。人类活动（如图4所示）由目标来执行，包括擦白板、行走、移动手提箱、旋转椅子、坐着、站起和坐下。我们使目标在每个房间重复这六个动作每轮五次，目标花51秒 做每种动作。我们总共收集了40个目标-房间对的活动数据，分别对应于40个不同的领域。
在这里插入图片描述

4.2.3 数据处理

我们使用的CSI数据使子载波的振幅。由于在数据采集过程中的包丢失问题，我们首先对CSI值进行插值以获得统一的采样周期，然后对CSI值进行归一化以使其平均值为零，标准偏差为1。之后，我们使用Hampel滤波器去除异常值，并将CSI测量值下采样到25 Hz。我们将每128个样本的CSI值分割为32个样本，这相当于约5.12秒的人类活动。对于来自两个接收器的每个段，我们计算段之间的关联性并且这些段的滞后时间不超过 $\tau$ 个时间单位。我们设置 $\tau$ 为128。然后我们通过每个段的FFT将它们相结合，作为深度学习模型的输入。

4.2.4 表现评估

我们首先对CSI数据集上提出的EI框架的性能进行定量分析，并将其与baseline进行比较。我们将CSI数据集随机分为源域（即带有标记活动的主题房间对）和目标域（未标记任何活动的对象），并同时确保源域和目标域中的房间不同。在该实验中，有22个源域（11个志愿者在3个房间中）和18个目标域（10个志愿者在3个房间中），其中10个志愿者同时参与了源域和目标域。我们将源域的数量从2个逐渐增加到22个，并使用准确性作为评估的标准。图5显示了CSI数据集上的结果。
在这里插入图片描述
从图5中我们可以看到，只有2个源域时，所有方法的准确性都较低。这是因为标记的样本太少，无法为每种方法学习一个好的分类器。但是，在目标域（即EI，VADA，CAT）上利用未标记数据的方法比仅将标记数据作为输入的随机森林能够更好地学习分类器。WiFi信号对周围环境敏感，因此在源域和目标域中收集的信号完全不同，这使得随机林无法在目标域上获得良好的性能。因此，即使源域的数量增加，随机森林的性能也不会得到显着改善。相反，其他三种基于深度学习的方法能够提取源域和目标域共享的共有特征，这使它们能够更有效地利用标签信息。因此，它们的性能要优于随机森林。其中，所提出的EI框架可以达到最佳性能。通过添加平衡约束和置信度控制约束，所提出的方法可以显着提高探索能力，并且即使在不同活动之间的边界不明确时，也适用于使用WiFi信号进行活动识别的任务。拟议的EI框架的最终目标是学习与环境无关的活动表示。为了定性评估学习到的表示，我们对WiFi CSI数据集进行了以下实验。从目标域中未标记的数据中，我们首先选择一个受试者，该受试者收集了两个不同房间中两个不同活动的数据,（即四个活动-房间对）。然后，我们为每个活动和房间对随机选择40个数据样本，并根据等式（1）最终在2D空间中用t-SNE²绘制这些样本学习到的表示，如图6a所示。
在这里插入图片描述
在图6a中，我们使用橙色和蓝色来表示不同的活动，并使用圆形和三角形标记来表示不同的房间。请注意，这些样品的活动标签是未知的。可以看到，潜在特征空间 $Z$ 中的样本可以形成两个明显分开的簇，每个簇对应一个活动。此外，我们可以观察到，在每个活动集群中，来自不同房间的样本相互混合。这证明了所提出的EI框架的有效性，即学习与环境无关的功能。为了进一步说明上述观察，我们首先选择两个具有相同活动标签的样本。如图6a所示，尽管它们是从两个不同的房间收集的，但它们在潜在特征空间中彼此靠近。然后，我们在图6b中绘制其原始的单通道CSI波形。可以看到，它们的波形完全不同。使用这种不同的输入数据，提出的EI框架仍然可以学习类似的表示形式。这再次验证了所提出的EI框架能够删除域唯一的特征并从未标记的数据中提取与环境无关的信息。

……其他实验略

Daniel Halperin, Wenjun Hu, Anmol Sheth, and David Wetherall. 2011.Tool release: Gathering 802.11 n traces with channel state information. ACM SIGCOMM Computer Communication Review 41, 1 (2011), 53–53. ↩︎
Laurens van der Maaten and Geoff rey Hinton. 2008. Visualizing data using t-SNE. Journal of Machine Learning Research 9, Nov (2008), 2579–2605. ↩︎