Masked Reconstruction Based Self-Supervision for Human Activity Recognition

最新推荐文章于 2025-05-16 14:00:49 发布

魔法之力撕成抱歉

最新推荐文章于 2025-05-16 14:00:49 发布

阅读量129

点赞数 1

分类专栏：算法文章标签：算法 python 深度学习迁移学习分类

本文链接：https://blog.csdn.net/m0_52229799/article/details/132239209

版权

算法专栏收录该内容

6 篇文章

订阅专栏

Masked Reconstruction Based Self-Supervision for Human Activity Recognition

摘要: 可穿戴感测设备的无处不在的可用性已经使得运动数据的大规模收集成为简单的奋进。然而，这些数据的注释仍然是一个挑战，并且因此，用于人类活动识别（HAR）的公开可用数据集通常在大小以及可变性方面受到限制，这限制了HAR模型训练和有效性。

简介：现在因为打标签比较困难，所以数据集都比较小，那么小的注释数据集限制了分析模型的复杂性，从而限制了活动识别系统的能力。

预训练：在本文中，我们利用掩蔽的感官数据在随机时间步作为预训练目标。然后，迫使编码器重建屏蔽的传感器读数，从而从左到右和从右到左处理序列。我们利用这样的双向编码结合时间上下文的想法，并且有利于学习时间序列数据的表示。在下文中，我们首先详细说明prefit任务，然后解释编码器的模型架构。最后，我们还描述了用于计算所提出的方法的性能的分类后端。

流程：图1详细介绍了自我监督管道。它包括两个步骤：（i）预训练，其中我们利用未标记的数据通过自我监督来学习编码器权重;（ii）微调，我们随后使用学习的编码器权重进行特征提取，作为活动识别链（ARC）的一部分[3]。使用MLP分类器评估表示的性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RPUZcwcY-1691755021455)(E:\POSTGRAUATE\暑假工作-领域泛化\typora-image\2023-08-11-16-33-06-image.png)]

encoder：我们在图2中详细描述了编码器的架构。在本文中，我们利用基于[34]的多层Transformer编码器作为预训练的编码器。通过利用1D卷积将输入的传感数据变换为128维的嵌入。如Russwurm等人。[29]，我们也使用了分层规范。Transformer编码器不包含卷积或递归，因此不能利用数据的时间顺序。为了注入关于传感器读数序列的位置信息，我们使用正弦位置嵌入[34]。位置嵌入被设计成具有与输入嵌入（128）相同的尺寸，并且在输入到Transformer编码器之前将两者相加。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MeXoKmg8-1691755021456)(E:\POSTGRAUATE\暑假工作-领域泛化\typora-image\2023-08-11-16-51-10-image.png)]

数据集：UCI-HAR, Mobiactv2，USC-HAD

结论：我们已经引入了掩蔽重建作为一个可行的自我监督的预训练目标，应用于人类活动识别管道。在四个基准数据集中的三个上，我们展示了比包括卷积自动编码器在内的最先进的无监督学习方法的改进性能。在四个基准数据集中的两个上，我们在对有限的标记数据进行微调时证明了改进。这个结果是特别的实际意义，因为它使我们能够有效地利用未标记的数据。使用可穿戴设备收集大量数据很简单，但对这些数据进行注释通常非常具有挑战性。我们探讨了如何减轻对大规模标记数据集的依赖。