Q1、什么是EDA(Exploratory Data Analysis)?
EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。
Q2、什么是同比、环比,意义是什么?
环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。
同