人类活动识别---数据集UCI-HAR简介

UCI 人类活动识别数据集是以智能手机采集的传感器数据为基础的活动识别,创建于2012年,实验团队来自意大利热那亚大学。在2012年的论文《Human Activity Recognition on Smartphones using a Multiclass Hardware-Friendly Support Vector Machine》中,采用机器学习算法建模,提供了该数据集分类性能的baseline。在2013年的论文《A Public Domain Dataset for Human Activity Recognition Using Smartphones》中,对数据集进行了全面描述。

这些数据是从30名年龄在19岁到48岁之间的志愿者身上收集的,这些志愿者将智能手机绑在腰间,进行6项标准活动中的一项,通过开发的手机软件记录运动数据。同时记录每个执行活动的志愿者的视频,后期根据这些视频和传感器数据进行手动标记所属运动类别(类似剪辑视频中的音画同步)。执行的六项活动如下:
Walking;Walking Upstairs;Walking Downstairs;Sitting;Standing;Laying;

选择30名年龄在19-48岁之间的志愿者作为研究对象。记录的运动数据是来自智能手机(特别是三星Galaxy S II)的x、y和z加速度计数据(线性加速度)和陀螺仪数据(角速度),采样频率为 50Hz(每秒50个数据点)。每名志愿者进行两次活动序列,第一次在设备位于腰间左侧,第二次测试时,智能手机由用户自己按喜好放置。

原始数据不可用。数据集,提供了数据集的预处理版本。预处理步骤包括:

使用噪声滤波器对加速度计和陀螺仪进行预处理。
将数据分割成2.56秒(128个数据点)的固定窗口,重叠50%。
将加速度计数据分为重力(总)和人体运动分量。
我们使用手机加速度计和陀螺仪以50Hz 的采样率收集了三轴线性加速度和角速度信号。使用中值滤波器和截止频率为 20Hz的三阶低通Butter-worth滤波器对这些信号进行了预处理,以降低噪声。 该速率足以捕获人体运动,因为其能量的99%包含在15Hz以下[3]。 使用另一个巴特沃斯低通滤波器将具有重力和人体运动成分的加速度信号分离为人体加速度和重力。 假定重力仅具有低频分量,因此从实验中我们发现,对于恒定重力信号,0.3Hz是最佳转折频率。

将特征工程应用于窗口数据,并提供具有这些经过特征工程的数据。从每个窗口中提取了人类活动识别领域中常用的一些时间和频率特征。结果是一个561元素的特征向量。数据集根据受试者的数据分为训练集(70%)和测试集(30%),例如,训练21名受试者,测试9名受试者。

论文提出一个问题的框架,通过有分类标签的数据样本进行建模训练,以预测预测新对象上的运动活动。乍一看比较难理解的几个数据:

561 :特征工程之后的特征数,关于这些特征的说明,在数据集中的 features.txt和features_info.txt 作了详细说明,因为我们都是使用处理好的九轴传感器数据来建立深度学习模型,此处不再赘述。
128:数据集shape的第二个维度 128,看论文就很清楚了,在 2.56 秒的固定宽度滑动窗口中对时间信号进行采样,有 50% 的重叠。(2.56sec×50Hz = 128cycles)
7352 和 2947:数据集中将训练集和测试集中的传感器数据按照一个特征一个txt的格式各分成了9个文件,如下图所示。7352 和 2947 是测试集和训练集中每个txt文件shape的第一个维度,表示重采样之后的样本个数。一定要理解好数据集的shape!

 

训练集和测试集文件下的文件,文件格式相同、数量相同。我们以训练集文件夹下的文件为例说明:
一级目录:

 

test:测试集数据;
train:训练集数据;
activity_labels.txt:活动的真实标签(6个);
features.txt:特征工程的特征;
features_info.txt:特征工程处理说明;

 

X_train.txt:未经处理的原始数据,这个不用,可以不关心;
y_train.txt:活动类别标签(数字1-6表示),shape为(7352,1);说明:注意这里的标签是从1开始表示第一类,而one-hot编码是从0开始,注意编码的时候要减去1!这个在以后的建模过程中会遇到,先说明一下。
subject train.txt:将训练集的每一个样本与志愿者编号(1-30)对应,即给每条样本记录属于哪位志愿者做标识,shape为(7352,1);

body_acc_x_train.txt、body_acc_y_train.txt、body_acc_z_train.txt:三轴的加速度数据;
body_gyro_x_train.txt、body_gyro_y_train.txt、body_gyro_z_train.txt:三轴的陀螺仪数据(角速度);
total_acc_x_train.txt、total_acc_y_train.txt、total_acc_z_train.txt:三轴的重力加速度数据;
test 文件夹下的文件结构跟 train 文件夹下是相同的,只是shape不一样。本文和以后的几篇文章中,使用的都是这两个文件夹下的数据作为训练数据和测试数据,不使用原始数据和经过特征工程的数据。

更多精彩内容请关注:

 

  • 6
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
UCI人类活动识别数据集是一个广为人知的公开数据集,用于训练和评估机器学习算法在识别人类活动方面的能力。该数据集由对智能手机进行的实验收集而成,包含了来自30个不同志愿者的加速度计和陀螺仪传感器数据。 数据集包含六个不同的活动类别:走路、上楼、下楼、坐着、站立和躺着。加速度计和陀螺仪传感器数据被采样为固定频率的时间序列数据。每个传感器都测量了三个方向的运动(X、Y和Z轴)。数据集还提供了每个样本的标签,以便进行监督学习和模型的评估。 UCI人类活动识别数据集的目标是通过机器学习算法自动识别和分类人类活动。这对于智能手机或其他感测设备来说是一个重要的应用领域。识别人类活动可以用于许多应用,如健身追踪、安全监控和人机交互。 研究人员和开发者可以使用UCI人类活动识别数据集来训练自己的机器学习算法,并利用该数据集的丰富信息来提高模型的准确性和普适性。通过使用这个数据集,研究人员可以探索不同的特征提取方法、分类算法和特定领域的优化技术。 总而言之,UCI人类活动识别数据集是一个有助于推动机器学习算法在人类活动识别方面发展的重要资源。它提供了丰富的数据,可以用于开发和评估新的算法和应用程序。通过使用这个数据集,我们可以更好地理解和识别人类活动,并为未来的智能技术提供更多的可能性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

末世灯光

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值