一、探索性数据分析(EDA)
1.1 概念
可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集包含的各类信息
1.2 目的
①最大限度的观察数据集
②检测数据中存在的错误与异常值
③发觉潜在结构
④检验潜在的假设
⑤提取中更要变量
⑥建立初步模型
⑦确定最优因子设置
1.3 特点
①研究从原始数据入手,以实际数据为依据
②研究方法从实际出发,不以某种理论为依据
③分析工具简单直观更易普及
1.4 主要方法
①单变量——图形化分析、非图形化分析
②多变量——图形化分析、非图形化分析
③样本相似性与相异性分析
二、方法
2.1 单变量
主要观察于单变量的描述和统计推断两个方面,旨在用简单的概括形势反映出大量样本资料所容纳的基本信息,描述样本数据集中或离散趋势。
2.1.1 图形化分析
①直方图
②茎叶图
③箱型图——1先找出最大值最小值中位数和2个四分位数 2连接2个四分位数画出一个箱子 3将最大值最小值与箱子相连中位数放在中间
2.1.2 非图形化分析
①分类数据:使用表格、统计各种类别的数据出现频次
②定量数据:使用统计量
集中趋势:算术均数、中位数
数据离散:标准差、方差、极差
峰度与偏态:峰度:K (标准正态分布的K=3)、偏态:正、负
2.2 多变量
2.2.1进行相关性分析
相关程度:完全相关、不完全相关、不相关
相关方向:正相关,负相关
相关形式:线性相关、非线性相关
影响因素:单相关、负相关
2.2.2 方法
非图形化、 图形化
------------------------------------------------------------------------------明天再更新