数据分析基础套路与实战
本文简单介绍一下基于spss与python实现数据分析的基本流程及其相应的统计原理。
数据分析的基本流程
- 确定数据分析的目标与分析框架;
- 数据采集与预处理;
- 数据分析;
- 业务需求建模
- 完善数据分析报告;
数据分析
1、描述性统计
集中趋势、离散趋势、分布特征、相关性
主要通过spss中的频率、描述、探索、交叉表等模块完成分析。
频率:描述性统计,适用于连续性,可输出图表
描述:服从正态分布的连续变量的相关描述统计指标
探索:适用于分布特征未知的探索过程。介绍引自https://zhuanlan.zhihu.com/p/51475865
- 输入字段介绍
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息; - 功能介绍
描述性统计(均值、百分位数、离群值、M估计值)
正态分布检验。
Levene方差齐性检验。
注:当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重。
1.1 集中趋势
指标包括:算术均数、众数、中位数、四分位数、截尾均数、几何均数、
截尾均数:按比例去掉两端数据,再计算均数 ,探索—统计—描述,自动计算
几何均数:适用于原始数据分布不对称,经对数转换后呈对称分布。
几何均数仅适用于具有类等比关系的数据中,受极端影响不大。
1.2 离散趋势
指标包括:级差、方差、标准差、百分位数(四分位间距)、变异系数
四分位距:去掉首尾两端的数据
变异系数: CV = S / X_hat
四分位间距:(P25-P75)之间的数据
1.3 分布特征
指标:峰度、偏度
g1 > 0,即为正偏,又称右偏,认为分布长尾偏右。均数(峰尖)偏左,极端值偏大。
g1 < 0,即为负偏,又称左偏,认为分布长尾偏左。均数(峰尖)偏右,极端值偏小。