20221010Pedestrian Stride-Length Estimation Based on LSTM and Denoising Autoencoders个人学习笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_41650636/article/details/127244623

Materials and Methods

System Architure

System architecture of the proposed TapeLine

Benchmark Dataset

使用智能手机采集加速度和陀螺仪的数据. 此外使用FM-INS模块, 借助零速度更新算法(zero-velocity updates algorithm)去检测脚落地的动作并且计算出真实的步长, 将真实的步长发送给手机, 将该真实步长作为标签, 以在离线阶段进行训练, 下图为采集数据的示意图.
在这里插入图片描述

Data Preprocessing and High-Level Feature Extraction

在数据被送进LSTM网络之前, 执行一系列预处理操作, 包括数据分割, 步伐提取和长度对齐.
首先根据手机传感器数据和步长真值, 生成训练数据和标签,
其训练集的数据中, 采样频率为100Hz. 每一步的平均长度为122.2(个样本), 所以其采用长为300样本的窗口完全足以涵盖不同的行进速度下的步伐., 文中的意思大致为(我的推测), 以步伐为分割点, 来分割训练集的数据, 将相邻两步之间被分割的数据填充为300个样本大小. 所以预处理的数据中每个窗口(也就是以相邻两步分割的数据)中的数据大小为300(样本)*6(即加速度和陀螺仪), 但有一个问题, 就是 ==假设每一步都是1.2秒, 其训练时将每一步的120条数据都扩充为300条数据, 如此进行训练, 但到了测试时, 300条数据可能涵盖了两到三步, 形象地说, 将120样本拉长成300样本得到的特征, 与涵盖了两三步的300样本的深层次特征是否相似? 300样本长度相当于120样本/步是不是过大了一些, 这样的训练方法会影响最后的测试吗? ==
按照以上的方法进行预处理后, 又提取了一些高层次的特征(其实就是一些早期的PDR论文中估计步长所用的公式), 如下图所示:
在这里插入图片描述
具体参数不再赘述, 详见原文链接

有了以上的数据, 即可构成一个"窗口"用于训练(原文使用"Stride"表示, 但翻译过来可能与待检测的步长混为一谈), 窗口中包括相邻两步之间的加速度陀螺仪和4个"高层次特征", 如下图所示
在这里插入图片描述

Stride-Length Estimation Model

所提出的训练框架分为三部分, 如下图所示

包含两个LSTM层和四个全连接层, 来进行训练, 取得最优权值分布
DAE(Denoising Autoencoders,去噪自动编码器)模型, 包括上一步的两个LSTM层和dropout-encode-decoder模块
在得到的编码器上添加三层全连接层的回归模块

Temporal Feature Extraction based on Long Short-Term Memory

在这里插入图片描述
前几天的康复训练里复习了LSTM, 在本论文中的LSTM的网络中, 其输出的向量是什么不用管, 所有各种层的所有参数都是从最后的输出的反向传播来自动优化的. LSTM层所输出的其实是时间上的深层次特征. 此外, 图中提到的Dense层其实就是全连接层

Noise sanitization based on Denoising Autoencoders

都什么年代, 还在使用传统滤波? 论文中训练了DAE来迫使隐藏层提取更加健壮的特征, 于是上图中Concatenate层之后的部分被修改为下图所示的新网络结构
在这里插入图片描述
简述之, DAE包括三个部分: Dropout, Encoder, Decoder.
首先通过Dropout层破坏一些神经元来防止过拟合, 然后使用Encoder将其映射到低维空间, 再用Decoder映射回原来的尺寸, 以之位最后回归模型的输入, 进行步长估计. 训练所使用的目标函数如下(最小化该函数以实现编码-解码损失最小化):
在这里插入图片描述
其中