Datawhale 零基础入门心电图心跳信号多分类预测挑战赛-Task 2 EDA

最新推荐文章于 2021-04-28 18:31:09 发布

Little_stepL

最新推荐文章于 2021-04-28 18:31:09 发布

阅读量175

点赞数

分类专栏：时序

本文链接：https://blog.csdn.net/qq_15528459/article/details/115016357

版权

时序专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Task 2 数据分析（EDA-数据探索性分析）

简略观察数据（head().append(tail())首尾数据 + shape）
数据总览：describe() 熟悉数据的相关统计量 + info() 熟悉数据类型
判断数据缺失和异常：

缺失值：data.isnull().sum()——查看每列的存在nan情况

异常值检测（转换为nan/按照某种规律进行填充）
了解预测值的分布

（如果是分类问题，value_counts()可以观察不同标签的数量情况）
- 统计（scipy.stats）
- Seaborn是基于matplotlib的Python可视化库。 但应强调的是，应该把Seaborn视为matplotlib的补充，而不是替****代物。
  
  它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，不需经过大量的调整就能使你的图变精致。
displot()集合了matplotlib的hist()与核函数估计kdeplot的功能，增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。

通过hist和kde参数调节是否显示直方图及核密度估计(默认hist,kde均为True)

fit：控制拟合的参数分布图形，能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布)

fit=norm 拟合标准正态分布

bins修改箱子个数

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。

rag：控制是否生成观测数值的小细条

总体分布概况

查看skewness & kurtosis （偏度/峰值）

查看预测值的具体频数