统计学-Week6

统计量及抽样分布

总体就是我们想要研究的整个群体;参数就是描述总体的数值摘要;样本是总体的子集;统计量是描述样本的数值摘要
抽样分布是样本的分布,也可以理解为一个统计量的分布(任何统计量)。所有参数从属于一个总体,所有统计量从属于一个样本
下面是统计中的符号:
统计 符号

1. 常用的统计量

  • 样本均值: 样本的均值

  • 样本方差: 现求出总体个数据与其算数平均数之差的平方,再对次变量求平均数,就叫做样本方法。样本方差用来表示一列数的变异程度。

  • 样本变异系数: 又称“离散系数”,是概率分布离散程度的一个归一化度量,其定义为标准差与平均值之比。变异系数主要用于不同单位的数据变异度的比较,或是相同单位的数据但均属差差比较大时变异度的比较。

矩是物体形状识别的重要参数指标。在统计学中,矩表征随机量的分布。
一阶矩,期望,表位置;二阶矩,方差,表胖瘦;三阶矩,偏度,表歪斜;四阶矩,峰度,表尾巴胖瘦。

  • 样本K阶距: k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一阶原点矩就是数学期望。

  • 样本K阶中心距: k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。二阶中心矩,也叫作方差,它告诉我们一个随机变量在它均值附近波动的大小,方差越大,波动性越大。方差也相当于机械运动中以重心为转轴的转动惯量。三阶中心矩告诉我们一个随机密度函数向左或向右偏斜的程度。
    样本K阶矩、样本K阶中心矩:
    在这里插入图片描述

  • 次序统计量: 设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。
    在这里插入图片描述
      (1) 最小顺序统计量
      (2)最大顺序统计量
      样本X1,X2,…,Xn是独立同分布的,而次序统计量X(1),X(2),…,X(n) 则既不独立,分布也不相同

  • 充分统计量: 在这里插入图片描述

2. 抽样分布

在理解抽样分布之前, 首先需要明确区分 描述统计 与 推论统计
描述统计: 用来描述收集的数据.例如集中趋势\离散程度\分布状态
推论统计: 在于使用我们收集到的数据对更大的总体数据得出结论.
大数法则: 表示 随着样本容量增加,样本平均数越来越接近总体平均数
中心极限定理: 表示 样本容量足够大,平均数的抽样分布越接近正态分布

样本均值的抽样分布:z-分布、t-分布
样本方差的抽样分布:卡方分布、F-分布

2.1 z-分布

在介绍差值用于标准化的文章中,我们接触到了 z-分数这一概念。回顾一下 z-分数,z=(x-μ)/σ ,含义是「当前数据点与样本平均值之间差了多少个标准差」。借助 z-分数,同理我们可以构造抽样的 z-分数,用于表示「样本均值和总体均值之间差了多少个标准差」。此时式子中的 x 和 σ 就变成了每次抽样的平均值和标准误(Standard Error),记为
Z函数
已经通过反复的实验证明,当 n 充分大时,抽样的 z-分数会服从标准正态分布,也就是 z-分布。
在这里插入图片描述

2.2 t-分布

t-分布全称是学生 t-分布(Student’s t-distribution),在样本量很小(不足 30)的情况下使用 z-分数产生的误差非常大,便依靠自己的统计知识创造出了 t-分布。产生大误差的原因在于对 μ 和 σ 两个参数的估计。因为 z-分数里的 μ 和 σ 总是已知的,然而在实际中未必清楚这两个数值到底是多少,尤其是 σ 要比 μ 难测量得多。试着想一想,如果总体有 10 个,样本数为 3 的抽样情况就有 C(10, 3)=120 种。计算量太大导致人们更倾向于主观估计。
William 想到用样本方差 s 来表示总体方差,构造出一个「神似」z-分数的新统计量
在这里插入图片描述
中心极限定理告诉我们,当样本量足够大的时候,任何分布形态的均值和方差都可用此时的样本统计量来近似。因此这种做法是合理的。
William 还发现这个统计量服从的是自由度(Degrees of Freedom)为 n-1 的分布,后来被称为 t-分布,其中的n-1 来自样本方差的有偏估计(重温或进一步认识自由度的概念,可翻到文末查看推荐阅读的材料)。这种分布的形状与自由度有关,自由度越小分布曲线越「矮胖」,自由度越大则分布曲线越「高挑」。当自由度为 30 的时候(图中橙色线条),t-分布整体上已经很接近正态分布了。
T分布的定义:

  1. 总体服从正态分布, 总体标准差未知, 样本容量<30, 那么样本的均值抽样分布服从T~t(n-1)的T分布, 与标准正态分布相差较大
  2. 总体服从正态分布, 总体标准差未知, 样本容量>=30,那么样本的均值抽样分布服从T~t(n-1)的T分布, 与标准正态分布曲线几乎重合. 还可以用Z分布近似表达.

在这里插入图片描述

2.3 卡方分布

针对服从 z-分布的总体,如果将每次抽样求得的样本 z-分数求平方和,就可得到叫做卡方(Chi-square)的统计量
在这里插入图片描述
当样本无限大时,这个统计量会接近一种偏态的分布,如下图所示。这种分布和 t-分布类似,它的形态依赖于自由度的大小,称为卡方分布(Chi-square Distribution)
在这里插入图片描述
若总体均值 μ 无法得知,可用样本均值代替,此时的卡方就为
在这里插入图片描述
服从自由度为 n-1 的卡方分布,n-1 来自样本方差的有偏估计。

2.4 F分布

前面介绍的三个统计量针对的是都是组内(单个总体)比较,现在我们将目光转向另一方面:如何对比组间(两个总体)的差异。按照同样的思路,我们可以分别对两个总体进行抽样,得到它们的样本均值或方差的抽样分布。然后再对比各自的抽样分布统计量,比方说把两个卡方统计量求一下比值,就能大致确定它们的差异状况了。

F分布有着广泛的应用,在方差分析、回归方程的显著性检验中有着重要的地位。
设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n的χ2分布,随机变量X有如下表达式:
在这里插入图片描述
则称X服从第一自由度为m,第二自由度为n的F分布,记为F(m, n),简记为X ~ F(m, n)。
在这里插入图片描述

3. 中心极限定理

中心极限定理:设从均值为μ,方差为σ²(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值x̄的抽样分布近似服从均值为μ,方差为σ²/n 的正态分布
我们常把证明其极限分布为正态分布的定理统称为中心极限定理。中心极限定理要求n必须充分大,究竟要多大才算充分大呢?这和总体的分布形状有关。总体离正态越远,要求n越大

参考:https://mp.weixin.qq.com/s/z2Cdi0Mq5VfTlXO_kX9Mjw

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值