参考书籍:《Python数据分析与挖掘实战》
1.探索性数据分析
首先,也是很重要的一点,对数据本身的涵义认知是非常重要的,一定要基于数据本身的特性进行初步分析。(包括常识)
数据质量分析
异常值分析(离群点分析)常用方法:最值、(如果符合正态分布,利用3σ原则)、箱型图。
df.head()预览数据,默认5行
df.info()索引,数据类型和内存信息,例如用来查看缺失值情况。
df.describe() 数值列的汇总统计信息
数据特征分析
对数据进行质量分析后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析,包括分布分析、对比分析、统计量分析、贡献度分析、相对性分析等等
-
分布分析:
-
对比分析:
-
统计量分析:
利用统计指标,常从集中趋势和离中趋势两个方面进行分析.
均值: