【数据挖掘】心跳信号分类预测 之 赛题理解 —— 学习笔记(一)

本文是Datawhale与天池联合举办的零基础心电图心跳信号多分类预测挑战赛的学习笔记。赛题要求根据心电图数据预测心跳信号类别,涉及多分类问题,数据量超过20万条,包括训练集和两个测试集。评分指标是预测概率与真实值差值的绝对值之和。数据包含心跳信号序列和唯一标识,预测指标包括精确率、召回率等多分类评价标准。文章介绍了数据概况、赛题分析和基线模型的学习解读,强调特征工程和数据预处理的重要性。
摘要由CSDN通过智能技术生成


一、赛题理解

本赛是 Datawhale 与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门心电图心跳信号多分类预测挑战赛。

2016 年 6 月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。

赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。

比赛地址与赛题细节:天池-心跳信号分类预测

1.1 学习目标

  • 理解赛题数据和目标,清楚评分体系
  • 完成报名,下载数据,提交打卡,熟悉比赛流程

1.2 了解赛题

  • 赛题概况
  • 数据概况
  • 预测指标
  • 分析赛题

1.2.1 赛题概况

比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过 20 万,主要为 1 列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为保证比赛的公平性,将从中抽取 10 万条作为训练集,2 万条作为测试集 A,2 万条作为测试集 B,同时会对心跳信号类别 (label) 信息进行脱敏。

通过这道赛题来引导大家走进医疗大数据的世界,主要针对于于竞赛新人进行自我练习,自我提高。

1.2.2 数据概况

一般而言,对于数据在比赛界面都有对应的数据概况介绍 (匿名特征除外),说明列的性质特征。了解列的性质会有助于对数据的理解和后续分析。其中, 匿名特征 即未告知数据列所属的性质的特征列。

文件 train.csv 包含特征:

  • id 为心跳信号分配的唯一标识
  • heartbeat_signals 为心跳信号序列(数据之间采用“,”进行分隔)
  • label 为心跳信号类别 (0、1、2、3)

文件 testA.csv 包含特征:

  • id 心跳信号分配的唯一标识
  • heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)

1.2.3 预测指标

选手需提交 4 种不同心跳信号预测的概率,提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。

具体计算公式如下:

设,总共有 n n n 个病例,针对某一信号样本,若其真实值为: [ y 1 , y 2 , y 3 , y 4 ] [y_1, y_2, y_3, y_4] [y1,y2,y3,y4],模型预测概率值为: [ a 1 , a 2 , a 3 , a 4 ] [a_1, a_2, a_3, a_4] [a1,a2,a3,a4],那么该模型的评价指标 a b s − s u m abs-sum abssum 为:

a b s − s u m = ∑ j = 1 n ∑ i = 1 4 ∣ y i − a i ∣ {abs-sum={\mathop{ \sum }\limits_{ {j=1}}^{ {n}}{ {\mathop{ \sum }\limits_{ {i=1}}^{ {4}}{ { \left| {y\mathop{ {}}\nolimits_{ {i}}-a\mathop{ {}}\nolimits_{ {i}}} \right| }}}}}} abssum=j=1ni=14yiai
例如,某心跳信号类别为 1 1 1,通过独热编码 (One-Hot Encoding) 转成 [ 0 , 1 , 0 , 0 ] [0, 1, 0, 0] [0,1,0,0],预测不同心跳信号概率为 [ 0.1 , 0.7 , 0.1 , 0.1 ] [0.1, 0.7, 0.1, 0.1] [0.1,0.7,0.1,0.1],那么这个信号预测结果的 a b s − s u m abs-sum abssum 为:

a b s − s u m = ∣ 0.1 − 0 ∣ + ∣ 0.7 − 1 ∣ + ∣ 0.1 − 0 ∣ + ∣ 0.1 − 0 ∣ = 0.6 {abs-sum={ \left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6} abssum=0.10+0.71+0.10+0.10=0.6

以上,示范了 4 分类的 a b s − s u m abs-sum a

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值