天池大赛-心跳信号分类预测：探索性数据分析

最新推荐文章于 2022-11-25 01:40:39 发布

Felixy_97

最新推荐文章于 2022-11-25 01:40:39 发布

阅读量802

点赞数

文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/Felix_yf/article/details/115015755

版权

本文探讨了天池大赛中心跳信号分类预测的问题，重点进行了探索性数据分析（EDA）。通过载入数据科学库和可视化库，检查数据集的统计量、数据类型、缺失值和异常值，以及预测值的分布，为后续的机器学习模型建立奠定基础。

摘要由CSDN通过智能技术生成

比赛地址：零基础入门数据挖掘-心跳信号分类预测
参考资料：由DataWhale开源的学习资料，Seaborn官方文档

1. EDA 目标

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。

2. 内容介绍

载入各种数据科学以及可视化库:
- 数据科学库 pandas、numpy、scipy；
- 可视化库 matplotlib、seabon；
载入数据：
- 载入训练集和测试集；
- 简略观察数据(head()+shape)；
数据总览:
- 通过describe()来熟悉数据的相关统计量
- 通过info()来熟悉数据类型
判断数据缺失和异常
- 查看每列的存在nan情况
- 异常值检测
了解预测值的分布
- 总体分布概况
- 查看skewness and kurtosis
- 查看预测值的具体频数

3. 代码示例

3.1 载入各种数据科学与可视化库

#coding:utf-8
#导入warnings包，利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
import missingno as msno
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt 
import seaborn as sns
import numpy as np

3.2 载入训练集和测试集

导入训练集train.csv和测试集testA.csv

Train_data = pd.read_csv('./train.csv')
Test_data = pd.read_csv('./testA.csv')

id - 心跳信号分配的唯一标识
heartbeat_signals - 心跳信号序列
label - 心跳信号类别（0、1、2、3）

data.head().append(data.tail())——观察首尾数据

data.shape——观察数据集的行列信息

观察train首尾数据

Train_data.head().append(Train_data.tail())

在这里插入图片描述

观察train数据集的行列信息

Train_data.shape

(100000, 3)

要养成看数据集的head()以及shape的习惯，这会让你每一步更放心，导致接下里的连串的错误, 如果对自己的pandas等操作不放心，建议执行一步看一下，这样会有效的方便你进行理解函数并进行操作

2.3.3 总

最低0.47元/天解锁文章

Felixy_97

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫