零基础入门数据挖掘-心跳信号分类预测
Task0:赛题理解以及baseline复现前言
自己的第一篇文章,要越来越好
题目链接:零基础入门数据挖掘-心跳信号分类预测
一、赛题背景
赛题以医疗数据挖掘为背景,要求选手使用提供的心跳信号传感器数据训练模型并完成不同心跳信号的分类的任务。
二、赛题数据
赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。
字段表
Field | Description |
---|---|
id | 为心跳信号分配的唯一标识 |
heartbeat_signals | 心跳信号序列 |
label | 心跳信号类别(0、1、2、3) |
三、评判标准
选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值(越小越好)。
具体计算公式如下:
针对某一个信号,若真实值为[y_1,y_2,y_3,y_4]模型预测概率值为[a_1,a_2,a_3,a_4],那么该模型的平均指标abs-sumabs−sum为
a
b
s
−
s
u
m
=
∑
j
=
1
n
∑
i
=
1
4
∣
y
i
−
a
i
∣
abs-sum=\sum_{j=1}^n \sum_{i=1}^4 |{y}_{i}-{a}_{i}|
abs−sum=j=1∑ni=1∑4∣yi−ai∣
例如,心跳信号为1,会通过编码转成[0,1,0,0][0,1,0,0],预测不同心跳信号概率为[0.1,0.7,0.1,0.1][0.1,0.7,0.1,0.1],那么这个预测结果的abs-sumabs−sum为
a
b
s
−
s
u
m
=
∣
0.1
−
0
∣
+
∣
0.7
−
1
∣
+
∣
0.1
−
0
∣
+
∣
0.1
−
0
∣
=
0.6
abs-sum=|0.1-0|+|0.7-1|+|0.1-0|+|0.1-0|=0.6
abs−sum=∣0.1−0∣+∣0.7−1∣+∣0.1−0∣+∣0.1−0∣=0.6
四、baseline复现
1开源地址
datawhalechina/team-learning-data-mining
2提交结果
总结
本文只是简单的将数据下载下来,在本地完成了baseline的复现,大约5分钟左右就可以跑完。冲分才刚刚开始,冲鸭!