目录
一、赛题理解
本赛是 Datawhale 与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门心电图心跳信号多分类预测挑战赛。
2016 年 6 月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。
赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。
比赛地址与赛题细节:天池-心跳信号分类预测
1.1 学习目标
- 理解赛题数据和目标,清楚评分体系
- 完成报名,下载数据,提交打卡,熟悉比赛流程
1.2 了解赛题
- 赛题概况
- 数据概况
- 预测指标
- 分析赛题
1.2.1 赛题概况
比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过 20 万,主要为 1 列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为保证比赛的公平性,将从中抽取 10 万条作为训练集,2 万条作为测试集 A,2 万条作为测试集 B,同时会对心跳信号类别 (label) 信息进行脱敏。
通过这道赛题来引导大家走进医疗大数据的世界,主要针对于于竞赛新人进行自我练习,自我提高。
1.2.2 数据概况
一般而言,对于数据在比赛界面都有对应的数据概况介绍 (匿名特征除外),说明列的性质特征。了解列的性质会有助于对数据的理解和后续分析。其中, 匿名特征 即未告知数据列所属的性质的特征列。
文件 train.csv 包含特征:
- id 为心跳信号分配的唯一标识
- heartbeat_signals 为心跳信号序列(数据之间采用“,”进行分隔)
- label 为心跳信号类别 (0、1、2、3)
文件 testA.csv 包含特征:
- id 心跳信号分配的唯一标识
- heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)
1.2.3 预测指标
选手需提交 4 种不同心跳信号预测的概率,提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。
具体计算公式如下:
设,总共有 n n n 个病例,针对某一信号样本,若其真实值为: [ y 1 , y 2 , y 3 , y 4 ] [y_1, y_2, y_3, y_4] [y1,y2,y3,y4],模型预测概率值为: [ a 1 , a 2 , a 3 , a 4 ] [a_1, a_2, a_3, a_4] [a1,a2,a3,a4],那么该模型的评价指标 a b s − s u m abs-sum abs−sum 为:
a b s − s u m = ∑ j = 1 n ∑ i = 1 4 ∣ y i − a i ∣ {abs-sum={\mathop{ \sum }\limits_{
{j=1}}^{
{n}}{
{\mathop{ \sum }\limits_{
{i=1}}^{
{4}}{
{ \left| {y\mathop{
{}}\nolimits_{
{i}}-a\mathop{
{}}\nolimits_{
{i}}} \right| }}}}}} abs−sum=j=1∑ni=1∑4∣yi−ai∣
例如,某心跳信号类别为 1 1 1,通过独热编码 (One-Hot Encoding) 转成 [ 0 , 1 , 0 , 0 ] [0, 1, 0, 0] [0,1,0,0],预测不同心跳信号概率为 [ 0.1 , 0.7 , 0.1 , 0.1 ] [0.1, 0.7, 0.1, 0.1] [0.1,0.7,0.1,0.1],那么这个信号预测结果的 a b s − s u m abs-sum abs−sum 为:
a b s − s u m = ∣ 0.1 − 0 ∣ + ∣ 0.7 − 1 ∣ + ∣ 0.1 − 0 ∣ + ∣ 0.1 − 0 ∣ = 0.6 {abs-sum={ \left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6} abs−sum=∣0.1−0∣+∣0.7−1∣+∣0.1−0∣+∣0.1−0∣=0.6
以上,示范了 4 分类的 a b s − s u m abs-sum a