Datawhale组队学习202103--零基础入门数据挖掘_心跳信号分类（天池大赛）

最新推荐文章于 2022-03-11 17:56:07 发布

Azia

最新推荐文章于 2022-03-11 17:56:07 发布

阅读量169

点赞数

分类专栏：组队学习

本文链接：https://blog.csdn.net/weixin_39251985/article/details/114891132

版权

组队学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Task01 赛题理解及baseline学习

参考资料：Datawhale指导文档

1. 问题描述

该赛题是一个多分类问题（共四类），训练集给出心跳信号序列及该序列所属类别，目标是训练一个分类模型，当给出心跳序列时，能够自动对该序列进行分类。

平台给出的训练集包含10万条数据，测试集包含2万条数据，训练集和测试集示例如下：
在这里插入图片描述

2. baseline学习

baseline代码

2.1 数据预处理

这一部分以baseline中定义的函数及调用过程为主线来描述。

2.1.1 函数 reduce_mem_usage(df)

这一个函数主要是进行了数据转换。以train为例，首先查看数据类型如下（test和train相比只是缺少了label）：

train.detypes
out[]:
id                     int64
heartbeat_signals     object
label                float64
dtype: object

以int为例，int8/16/32/64所能存储的数据大小不同，占用的存储空间也不同，该函数的作用是要让可以用更少空间存储的数据不占用更大的空间。该函数将’id’和’label’下的数据，能转换就转换到最低位，将’heartbeat_signals’下的数据转换为’categoty’类型。

2.1.2 简单预处理

对于train和test，分别进行如下预处理：
（以train为例）
从csv直接读取的数据中，heartbeat_signals特征是用逗号分隔的一列数，在预处理中首先将他们拆分成多列，然后用s_i给第i列信号命名，最后用2.1.1定义的reduce_mem_usage函数降低train的存储空间。
对test也做相同处理。