《In-Home Daily-Life Captioning Using Radio Signals--ECCV---2022》论文解读

最新推荐文章于 2024-07-18 14:22:38 发布

aixiaohly

最新推荐文章于 2024-07-18 14:22:38 发布

阅读量63

点赞数

文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/aixiaohly/article/details/134856615

版权

In-Home Daily-Life Captioning Using Radio Signals–ECCV—2022

论文下载链接：[https://arxiv.org/pdf/2008.10966.pdf)

一、简要介绍

本文旨在描述日常生活，即对人们的活动以及与家中物体的互动进行文本描述。

1、目的和意义

创建一个系统来观察家中的人，并自动生成他们日常生活的文字记录。老年人可能有记忆问题，其中一些人患有老年痴呆症。他们可能会忘记自己是否服用了药物、刷牙、睡够了、晚上醒来、吃饭了等等。日常生活字幕使家庭护理人员（如女儿或儿子）能够收到关于父母日常生活的最新短信，即使他们不在家，也能照顾父母，让他们对年迈父母的健康和安全放心。
在这里插入图片描述

2、如何去描述？存在什么样的问题？

一种选择是在家里部署摄像头，并在录制的视频上运行现有的视频字幕模型。
存在的问题：
（1）大多数人在家里部署摄像头时会有隐私问题，尤其是在卧室和浴室。
（2）单个相机通常具有有限的视场；因此，用户需要部署覆盖不同房间的多个摄像头会增加花费成本。
（3）相机在黑暗环境和遮挡下工作不好，这是家里常见的场景。

3、如何去解决这些问题？—利用射频

作者提出将**射频信号（RF）**用于日常生活字幕。
在这里插入图片描述
为什么用射频信号？
（1）射频信号比摄像头更能保护隐私，因为它们很难被人类解读。

（2）来自单个射频设备的信号可以穿过墙壁和遮挡物，覆盖大部分家庭。
（3）射频信号在亮和暗环境设置下都能工作，性能不会下降。
（4）除了解决上述三个问题外，先前的一些文献工作也表明，人们可以分析从人们身体上反弹的无线电信号，以捕捉人体动作，并跟踪他们的3D骨骼。

4、如果利用射频信号，可能存在哪些挑战？

（1）缺少物体信息：射频信号没有足够的信息来区分物体，因为许多物体对无线电信号是部分或完全透明的。它们的波长约为几厘米，而可见光的波长为数百纳米。因此，使用RF信号也很难捕捉物体的确切形状。
（2）有限的训练数据：目前，还没有训练数据集包含来自人们家中的射频信号和相应的字幕。训练字幕系统通常需要数以万计的标记示例。然而，在人们的家中收集一个新的带有RF的大型字幕数据集将是一项艰巨的任务。

5、最终解决思路

在本文中提出RF-Diary，一种基于RF的家庭日常生活字幕模型，以解决这两个挑战。
（1）对于缺少物体信息
为了捕捉物体信息，除了RF信号外，RF-Diary还将标有床、沙发、电视、冰箱等静态物体大小和位置的家庭平面图作为输入。平面图提供了周围环境的信息，从而使模型能够推断人与目标的互动。此外，使用廉价的激光测量仪，在不到10分钟的时间内即可轻松测量地板图。一旦测量完毕，地板图可能会在未来几年内保持不变，并可用于该家庭未来的所有日常生活字幕。

RF-Diary提出了一种有效的表示方法，将平面图中的信息与RF信号中的信息进行集成。它从场景中人物的角度对平面图进行编码。它首先从RF信号中提取3D人体骨骼，然后在每个时间步长，将平面图的参考系统移动到提取的骨骼的位置，并编码每个对象相对于场景中的人的位置和方向。这种表示方式允许模型在每个时间步长关注各种对象，具体取决于它们与人的接近程度。（3D表示能够结合位置和姿势的信息，更容易学习字幕的表达）

（2）对于有限的训练数据
提出了一种多模态特征对齐训练方案，以利用现有的视频字幕数据集来训练RF-Diary。为了将事件字幕的视觉知识转移到我们的模型中，我们将从RF-Diary生成的特征与从在现有大型视频字幕数据集上训练的视频字幕模型中提取的特征的相同空间对齐。一旦功能对齐，我们就使用语言模型来生成文本描述。

二、方法

1、输入

（1）RF信号：对于输入的RF信号采用二维热图的形式，一个来自水平阵列，另一个是垂直阵列。
在这里插入图片描述
水平热图类似于投影在平行于地面的平面上的深度热图，垂直热图类似于投影在垂直于地面的平面上的深度热图。红色部分对应大的RF功率，而蓝色部分对应小的RF功率。
RF信号与视觉数据不同。它们包含的信息比RGB图像少得多。这是因为RF信号的波长只有几厘米，使得很难使用RF信号来捕捉物体的形状（射频信号传播中会产生多径传播，得到的是混合信号；并且会发生衰减，离得越远收到的信号弱，难以准确反应物体的形状）；他们甚至可能会完全错过钢笔或手机等小物件。RF更容易定位人（因为物体对射频信号的反射和吸收会导致信号的变化，而这些变化可以用来计算物体相对于发送和接收设备的位置。雷达和无线通信中的定位技术通常利用这些信号变化来确定目标的位置，而无需详细了解物体的形状。)。我们利用这一特性在同一坐标系中更好地关联RF信号和平面图。
PS：这里我刚开始读的时候有一个疑惑，如果同时出现一个人和一个箱子，那我发射信号后，怎么去定位哪个是人？后来我查阅了相关资料，实际上是可以的，三个因素，第一个是反射挑战，人和物体是有去别的；第二个是信号的强度和时延，人体通常会引起的不同信号；第三个是远动检测，因为人是在运动的，就会导致多径效应发生变化。

（2）平面图：为了使模型能够理解与对象的交互，我们必须提供有关周围环境的附加信息。但我们不需要了解家庭环境的方方面面，因为大多数背景信息，例如家具的颜色或纹理。我们使用物体的位置和大小来表示家庭环境——平面图在这里插入图片描述
可视化平面图表示。红色虚线表示从时间t1到t5的人的移动路径。以人为中心的绿色轴X-Y说明了以人为中心的坐标系，其中坐标系的原点随着时间的推移而变化。在这个以人为中心的坐标系下，在第t个时间步长，使用5元素元组来描述每个对象：（长度L、宽度W、中心坐标x（t）、y（t）和旋转θ）。

2、整体框架

在这里插入图片描述
具体的实现流程：
（1）射频信号和平面图的特征融合：

首先通过射频信号通过骨架生成器生成3D人体骨架（因为射频信号和可见光是具有完全不同的特性，通常不被人类解释的。因此很难从RF信号直接生成字母。但是如果我们利用人体骨架的信息就可以进行表示）。对3D骨架特征进行编码。
其次对平面图进行特征编码。
最后将3D骨架特征和平面图特征进行级联嵌入空间中等到u^p。
第一个损失函数事件字幕损失由融合特征生成的字幕和实际的字母之间的负对数似然损失给出。
通过这个融合模块，解决了射频信号信息的不足问题。

（2）视频信息：
同时使用配对视频和不配对视频数据集来训练视频字幕模型。
在这里插入图片描述
配对视频：使用预训练模型提取视频特征。（这里的匹配数据集相当于是作者收集了一个小型的配对数据，RF字幕数据集）
因为配对视频和RF+平面图对应相同的事件，因此在这里第二个损失函数，使用L2损失保持空间中特征的一致性。借助L2损失，将配对集的知识迁移到RF-Diary上去。但是这样可能会产生过拟合，因为你数据集太小了。所以引出了不配对数据集的使用。

不配对视频：训练不配对数据的编码器生成和配对编码器相同的特征。
在这里加入判别器Dm和Dn，判别空间池化之前配对和不配对之间的特征分布相似性。其实这里实际上的作用我认为是，配对数据集过小会导致过拟合问题，可能网络会学偏，而这里不配对数据集的作用就是把你往回拉，避免过拟合的问题。

（3）总体的损失函数：
在这里插入图片描述
这里前三个loss是希望融合特征、配对视频特征和不配对视频特征能够通过字幕生成模型，生成和真实状况相同的字幕。
配对Loss是为了保持两个相应事件在不同模态下的特征的一致性。
两个不配对Loss是为对齐配对和不配对视频之间的特征相似性。

3、可视化分析

在这里插入图片描述
RF视频测试集的示例。绿色单词表示行动。蓝色单词表示平面图中包含的对象。棕色单词表示平面图未覆盖的小物体。红色单词表示RF日记中对小物体的预测错误。第一行显示，在可见场景下，与基于视频的字幕模型相比，RF-Diary可以生成准确的字幕。第二行显示，当基于视频的模型由于较差的照明条件或遮挡而不起作用时，RF-Diary仍然可以生成准确的字幕。第三行显示了RF-Diary的局限性，即它可能会错过物体的颜色和对小物体的详细描述。

4、消融实验

（1）生成骨架----三维VS二维
在这里插入图片描述
Location相当于直接提取了RF的特征，没有进行骨骼生成。
通过对比可以看出，将三维骨架替换为位置或二维骨架会产生较差的性能。这是因为位置中没有包含足够的关于人执行的动作的信息，2D骨骼中也没有包含人相对于平面图上的对象的位置信息。3D骨架，它结合了关于人的位置和姿势的信息，提供了正确的抽象，以学习正确字幕的有意义特征。

（2）平面图
在这里插入图片描述
结果表明，与没有平面图相比，平面图的图像表示可以获得更好的性能，但仍比我们的以人为中心的表示差。这是因为网络更难从图像表示中解释和提取特征，因为信息远不如我们以人为中心的基于坐标的表示明确。

（3）损失函数的分析
在这里插入图片描述
RF-Diary网络在RF视频上的性能。在不添加L2损失的情况下，RF-Diary不会受到视频字幕模型的影响。因此，如果没有L2损耗，那么在视频字幕模型上添加鉴别器损耗与否不会影响RF-Diary的性能。可以看到L2损失对于模型的影响更大。

PS：

对于相关的一些公式并没有提及，可以自行观看原论文。论文里有一些细枝末节并未提及，在这里这表达了对于论文的整体思想的表达，如有遗漏，请自行补缺。

aixiaohly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《In-Home Daily-Life Captioning Using Radio Signals--ECCV---2022》论文解读

《In-Home Daily-Life Captioning Using Radio Signals--ECCV---2022》论文解读
复制链接

扫一扫