原标题:震惊!数据分析还能这样做?
数据分析概述
数据分析完整工作流程
关于数据分析的大体流程这里以图形的形式展现给大家,就不做过多的讲述。
数据探索与相关性分析
这一部分是直接从数据分析工作流程中的数据整理与清洗开始。
数据探索,探索性数据分析(Exploratory Data Analysis),简称EDA。传统的统计方法是先假定数据服从某种分布,然后运用这种模型进行预测,以概率论为基础,做参数检验。而EDA则是强调数据,“抛开”概率的理论,从数据出发,主要手段是汇总统计,可视化。
在进行EDA时,我们可以分为三个阶段,分别是:
数据概况分析
单变量分析
多变量分析
用图形来展示如下:
接下来跟大家简单的分享一下数据探索性分析的流程,下面的所有过程都会使用到Python的pandas包。
数据概况分析
在数据概况分析阶段,我们主要了解数据整体的基本情况,比如数据的离散程度,数据的分布等,以及数据中是否存在异常值/缺失值。这里以二手车价格预测的数据来做个例子。(代码看不懂没关系,看结果就好,不妨碍理解)
结果如下图所示。