Task01--赛题理解
赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类问题。
数据下载地址,比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。
通过这道赛题来引导大家走进医疗大数据的世界,主要针对于于竞赛新人进行自我练习,自我提高。
一、数据概况
本赛题提供两个数据:train.csv和testA.csv
train.csv
-
id 为心跳信号分配的唯一标识
-
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)
-
label 心跳信号类别(0、1、2、3)
testA.csv
-
id 心跳信号分配的唯一标识
-
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)
二、预测指标
选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值(越小越好)。
具体计算公式如下:
针对某一个信号,若真实值为[y_1,y_2,y_3,y_4][y1,y2,y3,y4],模型预测概率值为[a_1,a_2,a_3,a_4][a1,a2,a3,a4],那么该模型的平均指标abs-sumabs−sum为