参考书籍:《Python数据分析与挖掘实战》
1.探索性数据分析
首先,也是很重要的一点,对数据本身的涵义认知是非常重要的,一定要基于数据本身的特性进行初步分析。(包括常识)
数据质量分析
异常值分析(离群点分析)常用方法:最值、(如果符合正态分布,利用3σ原则)、箱型图。
df.head()预览数据,默认5行
df.info()索引,数据类型和内存信息,例如用来查看缺失值情况。
df.describe() 数值列的汇总统计信息
数据特征分析
对数据进行质量分析后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析,包括分布分析、对比分析、统计量分析、贡献度分析、相对性分析等等
-
分布分析:
-
对比分析:
-
统计量分析:
利用统计指标,常从集中趋势和离中趋势两个方面进行分析.
均值:
均值法受极端数值影响较大,可以考虑截断极值或改用中位数。众数:一般用于离散型变量而非连续性变量。
离中趋势包括极差、标准差、变异系数、四分位数间距。
方差分析数据的稳定性和波动性的优点是:方差的计算结果将数据的波动性数值放大,比极差和标准差更为细致、准确、明显。当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量