数据分析的基础套路与实战(二)——统计基础

本文介绍了基于SPSS和Python的数据分析流程,重点讲解了描述性统计(集中趋势、离散趋势、分布特征、相关性)和假设检验的统计原理及SPSS操作。通过实例展示了如何使用SPSS进行频率、描述、探索等分析,并探讨了相关性分析的各种方法,如Person、Spearman和Kendall相关系数。此外,还提到了参数估计和概率论基础在数据分析中的应用。
摘要由CSDN通过智能技术生成

数据分析基础套路与实战

本文简单介绍一下基于spss与python实现数据分析的基本流程及其相应的统计原理。

数据分析的基本流程

  1. 确定数据分析的目标与分析框架;
  2. 数据采集与预处理;
  3. 数据分析;
  4. 业务需求建模
  5. 完善数据分析报告;

数据分析

1、描述性统计

集中趋势、离散趋势、分布特征、相关性
主要通过spss中的频率、描述、探索、交叉表等模块完成分析。

频率:描述性统计,适用于连续性,可输出图表
描述:服从正态分布的连续变量的相关描述统计指标
探索:适用于分布特征未知的探索过程。介绍引自https://zhuanlan.zhihu.com/p/51475865

  • 输入字段介绍
    因变量指待分析的数据变量;
    因子列表指分类变量,即按照因子变量对因变量进行分类;
    标注个案指对异常值的标注信息;
  • 功能介绍
    描述性统计(均值、百分位数、离群值、M估计值)
    正态分布检验。
    Levene方差齐性检验。
    注:当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重。
1.1 集中趋势

指标包括:算术均数、众数、中位数、四分位数、截尾均数、几何均数、
截尾均数:按比例去掉两端数据,再计算均数 ,探索—统计—描述,自动计算
几何均数:适用于原始数据分布不对称,经对数转换后呈对称分布。几何均数的计算公式
几何均数仅适用于具有类等比关系的数据中,受极端影响不大。

1.2 离散趋势

指标包括:级差、方差、标准差、百分位数(四分位间距)、变异系数
四分位距:去掉首尾两端的数据
变异系数: CV = S / X_hat
四分位间距:(P25-P75)之间的数据

1.3 分布特征

指标:峰度、偏度
偏度系数
g1 > 0,即为正偏,又称右偏,认为分布长尾偏右。均数(峰尖)偏左,极端值偏大。
g1 < 0,即为负偏,又称左偏,认为分布长尾偏左。均数(峰尖)偏右,极端值偏小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值