Datawhale数据挖掘学习赛心跳预测 Task3学习总结

Task3的任务是特征工程,通过对数据集的特征分析可以得到不同类型label的数据特征,借此以加强预测的准确性,这是数据挖掘过程中一种常见的方法。

1.数据处理

此次的数据挖掘训练赛为心电信号的时序序列分析,但是在所给的训练数据集中heartbeat_signals对时序的表现并不是很强,仅仅是一串连续以逗号“,”分隔的数值。为了表现时间特性,本次教程实现了对heartbeat_signals列数据的行转列,并且对每个数据赋予时间特性。通过这步操作,我们可以发现每个label对应的时间序列数值是205个数据的集合。同时我们将label列进行存储,为后续的特征筛选备用。

2.特征提取

特征提取使用了tsfresh包进行,不得不说,对于普通电脑,特征提取过程需要大量的计算资源。我自己运行很久进度条都没有反应,群里也在反应训练占据了大量内存且速度缓慢。不得不感谢群内的吉米嘟大佬,即时发布了他训练好的特征文件以及加参数的方式缩短训练时间。菜鸡多亏了大佬的即时指导才能继续进行下面的操作。 训练产生的特征集合中可能存在部分特征值为NAN,我们需要进行筛选。最后,由于训练时我们产生的特征是与时间相关,而本次的数据挖掘任务是为了找与label相关的特征值,因此需要再次筛选。

以上就是此次学习感想,找到合理的特征是此次的重点。但是对于挖掘小白来说,tsfresh包和特征提取的原理仍需要进一步学习,不能仅仅作为黑盒使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值