4 数据分析 统计学-描述统计分析

数据分析

1 统计学简介

1.1 统计学简介

统计学(Statistics): 收集、处理、分析、解释数据并从数据中得出结论的科学。
统计学主要分为描述统计(Discriptive Statistics)和推断统计(Inferential Statistics)。
描述统计
研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法,本质是对数据进行总体特征的概述。
推断统计
研究如何利用样本数据来推断总体特征的统计方法。
推断统计其实是建立在描述统计基础上,对总体数据有了大致了解后,运用一些分析方法,对数据进行预测,并达到统计决策的目的。

1.2 统计研究步骤
  1. 设计
    选题 => 明确研究目的 => 提出假设 => 明确总体范围 => 确立观察指标 => 控制研究中的偏移 => 给出具体的研究方案
  2. 收集数据
  3. 整理清洗数据
  4. 分析数据
    统计描述:了解样本数据的情况,尽量精确、直观而全面地对所获得的样本进行分析;
    统计推断:从样本数据外推到总体数据。

2 描述统计分析

2.1 集中趋势
  1. 均数
    描述一组数据的平均水平,分为总体均数 μ \mu μ和样本均数 X ‾ \overline{X} X
    优点
    高度浓缩了数据信息,使大量的样本数据转变成一个代表性的数值;
    比较敏感,任何一个数据变化,均数都会随之改变。
    缺点
    掩盖了各个样本数据之间的差异性;
    受极端值的影响较大。
  2. 中位数
    将全体数据从小到大排列,处于中间位置的数据就是中位数。
    优点
    不受极端值的影响。
    缺点
    以偏概全,只考虑居中位置的数据。
  3. 众数
    全体数据中出现次数最多数据就是众数。

Excel操作
均数:average()
中位数:median()
众数:mode()

2.2 离散趋势

离散趋势表明数据个体与数据整体水平离散程度大小。

  1. 离均差: x − μ x-\mu xμ
  2. 总体标准差

σ = [ ( X − μ ) 2 / N ] 1 2 \sigma=[(X-\mu)^2/N]^{\frac {1}{2}} σ=[(Xμ)2/N]21

  1. 样本标准差

S = [ ( X − X ‾ ) 2 / ( N − 1 ) ] 1 2 S=[(X-\overline{X})^2/(N-1)]^{\frac {1}{2}} S=[(XX)2/(N1)]21

注:样本标准差中分母为 N − 1 N-1 N1而不是 N N N的原因
分母取 N N N时,用极大似然估计获得的样本方差的期望时比理想值小,为有偏估计。

  1. 变异系数

c v = S / X ‾ c_v=S/\overline{X} cv=S/X

变异系数也称为离散系数,是测度数据离散程度的一个归一化量度,主要用于比较不同类型的样本数据的离散程度。
离散系数不需要参照数据的平均值,是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,可以用变异系数而不是标准差来作为比较的参考。

  1. 百分位数

如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组数据按数值大小排列。例如,处于p%位置的值称第p百分位数。

  1. 四分位数

把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值称为四分位数,常用于箱线图的绘制。
四分位数是通过3个分割点将全部数据等分为4部分,其中每部分包含25%的数据。
中间的四分位数就是中位数,处在25%位置上的数值称为下四分位数,处在75%位置上的数值称为上四分位数。
在这里插入图片描述
Excel操作
方差:var.s(num1, num2,…)
标准差:stdev.s(num1, num2,…)
变异系数:标准差 / 均值
百分位数:percentile.inc(array, k)
四分位数:quartile.inc(array, k)

  1. 分布形状

针对某种分布进行进一步的特征描述,常见的是用于正态分布的两个指标:
偏度系数:正态 正偏态 负偏态
峰度系数:正态 平阔峰 尖峭峰

偏度系数
S = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 [ 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ] 3 2 S=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3}{[{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2]}^\frac{3}{2}} S=[n1i=1n(xix)2]23n1i=1n(xix)3

峰度系数
k = ∑ i = 1 n ( x i − x ‾ ) 4 ( n − 1 ) S 4 k=\frac{\sum_{i=1}^n(x_i-\overline{x})^4}{(n-1)S^4} k=(n1)S4i=1n(xix)4
在这里插入图片描述
在这里插入图片描述
Excel操作
偏度:skew()
峰度:kurt()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值