心电图心跳信号多分类预测-EDA(二)

数据分析

赛题:心电图心跳信号多分类预测

2.1 EDA 目标

  • EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
  • 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
  • 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

2.2 内容介绍

  1. 载入各种数据科学以及可视化库:
    • 数据科学库 pandas、numpy、scipy;
    • 可视化库 matplotlib、seabon;
  2. 载入数据:
    • 载入训练集和测试集;
    • 简略观察数据(head()+shape);
  3. 数据总览:
    • 通过describe()来熟悉数据的相关统计量
    • 通过info()来熟悉数据类型
  4. 判断数据缺失和异常
    • 查看每列的存在nan情况
    • 异常值检测
  5. 了解预测值的分布
    • 总体分布概况
    • 查看skewness and kurtosis
    • 查看预测值的具体频数

2.3 代码示例

2.3.1 载入各种数据科学与可视化库

#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
import missingno as msno
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt 
import seaborn as sns
import numpy as np

2.3.2 载入训练集和测试集

导入训练集train.csv

import pandas as pd
from pandas import DataFrame, Series
import matplotlib.pyplot as plt
Train_data = pd.read_csv('./train.csv')

导入测试集testA.csv

import pandas as pd
from pandas import DataFrame, Series
import matplotlib.pyplot as plt 
Test_data = pd.read_csv('./testA.csv')

所有特征集均脱敏处理(方便大家观看)

  • id - 心跳信号分配的唯一标识
  • heartbeat_signals - 心跳信号序列
  • label - 心跳信号类别(0、1、2、3)

data.head().append(data.tail())——观察首尾数据

data.shape——观察数据集的行列信息

观察train首尾数据

Train_data.head().append(Train_data.tail())

在这里插入图片描述

观察train数据集的行列信息

Train_data.shape
(100000, 3)

观察testA首尾数据

Test_data.head().append(Test_data.tail())

在这里插入图片描述

观察testA数据集的行列信息

Test_data.shape
(20000, 2)

2.3.3 总览数据概况

  1. describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下
  2. info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常

data.describe()——获取数据的相关统计量

data.info()——获取数据类型

获取train数据的相关统计量

Train_data.describe()

在这里插入图片描述

获取train数据类型

Train_data.info()

在这里插入图片描述

获取testA数据的相关统计量

Test_data.describe()

在这里插入图片描述

获取testA数据类型

Test_data.info()

在这里插入图片描述

2.3.4 判断数据缺失和异常

data.isnull().sum()——查看每列的存在nan情况

查看trian每列的存在nan情况

Train_data.isnull().sum()
id                   0
heartbeat_signals    0
label                0
dtype: int64

查看testA每列的存在nan情况

Test_data.isnull().sum()
id                   0
heartbeat_signals    0
dtype: int64

2.3.5 了解预测值的分布

Train_data['label']

在这里插入图片描述

Train_data['label'].value_counts()

在这里插入图片描述

## 1) 总体分布概况(无界约翰逊分布等)
import scipy.stats as st
y = Train_data['label']
plt.figure(1); plt.title('Default')
sns.distplot(y, rug=True, bins=20)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

# 2)查看skewness and kurtosis
sns.distplot(Train_data['label']);
print("Skewness: %f" % Train_data['label'].skew())
print("Kurtosis: %f" % Train_data['label'].kurt())

在这里插入图片描述

Train_data.skew(), Train_data.kurt()

在这里插入图片描述

sns.distplot(Train_data.kurt(),color='orange',axlabel ='Kurtness')

在这里插入图片描述

## 3) 查看预测值的具体频数
plt.hist(Train_data['label'], orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()


关于偏度和峰度可以参考文献:Measures of Shape: Skewness and Kurtosis

2.3.6 用pandas_profiling生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

pandas_profiling 生成数据报告虽然很便捷,但是不利于对数据的理解,对于一些不复杂的项目中可以酌情使用,但在实际项目中应该尽量少用该模块生成数据报告。

在之前有相关更详细的EDA文章,可以进行参考:数据挖掘-探索性数据分析

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 心跳信号分类预测是指使用PyTorch这个强大的深度学习框架,通过训练模型来对心跳信号进行分类预测的任务。心跳信号通常用来判断一个人的心脏健康状况,通过对心跳信号进行分类预测,可以帮助医生对患者的心脏病情有更准确的判断,以及提供合适的治疗方法。 首先,我们需要准备心跳信号的数据集。这个数据集通常会包含一系列心电图信号、心率、心脏病类型等信息。可以使用PyTorch的数据加载工具,如`torchvision`或自定义的数据加载方法来处理数据集。 接下来,我们需要构建一个神经网络模型,用于对心跳信号进行分类预测。可以选择使用PyTorch提供的各种深度学习模型,如卷积神经网络(CNN)或循环神经网络(RNN),或者根据实际需求构建自定义的模型。 然后,我们需要将数据划分为训练集和测试集。训练集用于训练模型的参数,而测试集用于评估模型的性能和泛化能力。 模型的训练过程通常包括以下步骤:定义损失函数、选择优化器、迭代数据集、前向传播、计算损失、反向传播和更新模型参数。可以通过调整超参数、增加训练迭代次数等方法来提高模型的准确度和性能。 训练完成后,我们可以使用训练好的模型来对新的心跳信号进行分类预测。通过将新的心跳信号输入到模型中,模型会输出一个预测结果,表示该心跳信号属于什么类型。 当然,在实际应用中,还需要对预测结果进行解释和分析,以便医生做出准确的诊断和治疗决策。同时,还可以使用其他技术和工具来可视化和提取心跳信号的特征,帮助进一步分析和理解心脏病情。总之,PyTorch提供了一种灵活而强大的方式来进行心跳信号分类预测,能够在医疗领域提供更准确和有效的辅助决策。 ### 回答2: PyTorch是一种常用的深度学习框架,用于构建和训练神经网络模型。心跳信号分类预测是指基于心电图数据对患者的心跳进行分类预测,例如正常心跳、心律失常等。 首先,我们需要准备心电图数据集。可以从医疗机构、研究论文或公共数据集中获取心电图数据。每个样本包含一段心电图信号和对应的心跳类型标签。 接下来,我们使用PyTorch构建一个神经网络模型。可以选择不同的网络结构,如卷积神经网络 (CNN) 或循环神经网络 (RNN)。模型的输入是一段心电图信号的时间序列数据。 然后,我们使用数据集进行训练。将数据集分为训练集和测试集,通常采用随机划分的方法。通过迭代优化网络参数,使模型能够更好地学习心电图信号心跳类型之间的关系。 在训练过程中,我们可以使用常见的优化算法如随机梯度下降法(SGD)或自适应矩估计算法(Adam)来更新模型参数。此外,还可以使用学习率调度器、正则化技术等进一步提升模型性能。 训练完毕后,我们可以使用测试集对模型进行评估。评估指标可以选择准确率、精确率、召回率等来评估模型的性能。如果模型的性能不理想,可以考虑调整模型结构、调节超参数或增加更多的训练数据。 最后,我们可以使用训练好的模型对新的心电图信号进行预测。将新的心电图信号输入到模型中,模型会输出对应的心跳类型。这样可用于辅助医生诊断心脏疾病、提供个性化的康复方案等。 总之,PyTorch可以帮助我们构建和训练心跳信号分类预测模型。通过合理的数据准备、模型构建和训练优化,可以提高模型的预测准确性,为医疗实践提供有用的工具和支持。 ### 回答3: PyTorch是一种开源的深度学习框架,用于构建和训练神经网络模型。心跳信号分类预测是指使用PyTorch框架对心电图信号进行分类,以预测心脏病发作风险或诊断心脏病种类。 在进行心跳信号分类预测时,我们首先要获取带有标签的心电图数据集。这些数据集可能来自医疗机构或公开的心电图数据库。然后,我们使用PyTorch进行数据预处理,包括数据清洗、标准化等步骤,同时将数据分为训练集和测试集。 接下来,我们设计心跳信号分类模型。可以选择使用卷积神经网络(CNN)或循环神经网络(RNN)等模型架构,根据数据集的特点和任务需求来确定合适的模型。通过在PyTorch中定义网络的结构和参数,我们能够构建自己的模型。 训练过程中,我们使用训练集的数据来优化模型的权重和偏置,以最小化损失函数。可以使用梯度下降等优化算法,通过反向传播计算梯度并更新参数。在PyTorch中,我们可以定义自定义的损失函数和优化器,根据具体需求进行设置。 当模型训练完成后,我们使用测试集的数据对模型进行评估。通过计算准确率、召回率、F1值等指标,评估模型在心跳信号分类预测任务上的性能表现。 最后,我们可以使用训练好的模型对新的心电图信号进行预测。将信号输入到模型中,通过前向传播计算模型的输出,即预测心跳信号分类。根据预测结果,可以进行心脏病风险评估或病种诊断。 总之,使用PyTorch框架进行心跳信号分类预测,涉及到数据预处理、模型设计、训练和评估等步骤。通过这些步骤,我们可以构建一个准确预测心跳信号分类的模型,为心脏疾病的诊断和风险评估提供支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值