第六章 数理统计基础概念

6.1 样本均值的表达式

当我们从总体 X \mathcal{X} X 中抽取样本 X 1 , X 2 , ⋯   , X n \mathcal{X}_1, \mathcal{X}_2, \cdots, \mathcal{X}_n X1,X2,,Xn 时,样本均值和其数字特征是统计分析中的关键概念。以下是样本均值的表达式和其数字特征:

样本均值的表达式

  • 样本均值的定义:样本均值 X ‾ \overline{X} X 是所有样本值的算术平均,定义为:

X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i X=n1i=1nXi

  • 样本均值的观测值:给定一组具体的样本值 x 1 , x 2 , ⋯   , x n \mathrm{x_1, x_2, \cdots, x_n} x1,x2,,xn,样本均值的观测值 x ‾ \overline{x} x 为:

x ‾ = 1 n ∑ i = 1 n x i \overline{x} = \frac{1}{n} \sum_{i=1}^n x_i x=n1i=1nxi

样本均值的数字特征

假设总体 X \mathcal{X} X 具有数学期望 E ( X ) = μ \mathcal{E}(\mathcal{X}) = \mu E(X)=μ 和方差 D ( X ) = σ 2 \mathrm{D(X) = \sigma^2} D(X)=σ2,则样本均值 X ‾ \overline{X} X 的期望和方差为:

  • 样本均值的期望 E ( X ‾ ) = E ( X ) = μ \mathrm{E}(\overline{X}) = \mathrm{E}(X) = \mu E(X)=E(X)=μ
  • 样本均值的方差 D ( X ‾ ) = D ( X ) n = σ 2 n \mathrm{D}(\overline{X}) = \frac{\mathrm{D}(X)}{n} = \frac{\sigma^2}{n} D(X)=nD(X)=nσ2

这表明样本均值的期望等于总体均值,而其方差是总体方差除以样本大小。这一性质说明,随着样本量的增加,样本均值的变异性减小,样本均值更接近总体均值。

6.2 样本方差和样本标准差

样本方差和样本标准差是描述数据集散度的关键统计量。以下是样本方差和样本标准差的定义及其数字特征:

样本方差和样本标准差的定义

  • 样本方差 ( S 2 S^2 S2) 是测量样本值与其样本均值的偏离程度的统计量。其表达式为:

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 = \frac{1}{n-1} \left(\sum_{i=1}^n X_i^2 - n\overline{X}^2\right) S2=n11i=1n(XiX)2=n11(i=1nXi2nX2)

  • 样本标准差 ( S S S) 是样本方差的平方根,表示样本值的平均偏离程度。其表达式为:

S = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2} S=n11i=1n(XiX)2

样本方差的数字特征

假设总体 X \mathcal{X} X 具有数学期望 E ( X ) = μ \mathcal{E}(\mathcal{X}) = \mu E(X)=μ 和方差 D ( X ) = σ 2 \mathrm{D(X) = \sigma^2} D(X)=σ2,则样本方差 S 2 S^2 S2 的期望为:

  • 样本方差的期望 E ( S 2 ) = D ( X ) = σ 2 \mathrm{E}(S^2) = \mathrm{D}(X) = \sigma^2 E(S2)=D(X)=σ2

这表明,样本方差的期望值等于总体方差。因此,样本方差是总体方差的一个无偏估计量,特别是在样本量较大时,样本方差可以很好地估计总体方差。

6.3 三大分布

t 分布

t分布(Student’s t-distribution) 是统计学中常用的一种概率分布,特别是在样本量较小的情况下用于估计正态总体的均值。以下是t分布的典型模式和其性质:

t分布的定义

  • 如果随机变量 X X X Y Y Y 相互独立,且 X ∼ N ( 0 , 1 ) X \sim \mathcal{N}(0, 1) XN(0,1)(标准正态分布), Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Yχ2(n)(卡方分布,自由度为 n n n),则随机变量

T = X Y n T = \frac{X}{\sqrt{\frac{Y}{n}}} T=nY X

服从自由度为 n n n 的t分布,记作 T ∼ t ( n ) T \sim \mathrm{t}(n) Tt(n)

t分布的性质

  1. 概率密度函数的对称性:t分布的概率密度函数 f ( x ) f(x) f(x) 是一个偶函数,这意味着它在 x = 0 x=0 x=0 处对称。

  2. 接近标准正态分布:当自由度 n n n 充分大时,t分布趋近于标准正态分布 N ( 0 , 1 ) \mathcal{N}(0, 1) N(0,1)。这是因为当样本量增大时,样本方差趋向于稳定,从而使得t分布逐渐接近于标准正态分布。

t分布在小样本统计推断中尤其重要,例如在进行均值的假设检验和构建置信区间时,当总体方差未知且样本量较小时,t分布提供了一种有效的方法来估计和推断。

F分布

F分布(F-distribution) 是统计学中常用于方差分析和假设检验的一种概率分布。以下是F分布的典型模式和其性质:

F分布的定义

  • 如果随机变量 X X X Y Y Y 相互独立,且分别服从自由度为 n 1 n_1 n1 n 2 n_2 n2 的卡方分布( χ 2 \chi^2 χ2分布),即

X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) , X \sim \chi^2(n_1), \quad Y \sim \chi^2(n_2), Xχ2(n1),Yχ2(n2),

则随机变量

F = X n 1 Y n 2 \mathcal{F} = \frac{\frac{X}{n_1}}{\frac{Y}{n_2}} F=n2Yn1X

服从自由度为 ( n 1 , n 2 ) (n_1, n_2) (n1,n2) 的F分布,记作 F ∼ F ( n 1 , n 2 ) \mathcal{F} \sim \mathcal{F}(n_1, n_2) FF(n1,n2)。这里, n 1 n_1 n1 n 2 n_2 n2 分别称为F分布的第一和第二自由度。

F分布的性质

  • 倒数关系:如果 F ∼ F ( n 1 , n 2 ) \mathrm{F} \sim \mathrm{F}(n_1, n_2) FF(n1,n2),则其倒数服从自由度互换的F分布:

1 F ∼ F ( n 2 , n 1 ) \frac{1}{\mathrm{F}} \sim \mathrm{F}(n_2, n_1) F1F(n2,n1)

F分布在进行两个方差之比的显著性测试中非常重要,如在ANOVA(方差分析)和回归分析中检验模型的整体显著性。F分布的这一特性使得它成为比较两个独立估计量的方差时的理想选择。

卡方分布

卡方分布(Chi-squared distribution) 是统计学中用于方差分析和假设检验的一个重要分布。以下是卡方分布的典型模式和其性质:

卡方分布的定义

  • 典型模式:设随机变量 X 1 , X 2 , … , X n \mathbb{X}_1, \mathbb{X}_2, \ldots, \mathbb{X}_n X1,X2,,Xn 相互独立且都服从标准正态分布 N ( 0 , 1 ) \mathbb{N}(0, 1) N(0,1),则随机变量

χ 2 = X 1 2 + X 2 2 + … + X n 2 \chi^2 = \mathbb{X}_1^2 + \mathbb{X}_2^2 + \ldots + \mathbb{X}_n^2 χ2=X12+X22++Xn2

服从自由度为 n n n 的卡方分布,记作 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2χ2(n)

卡方分布的性质

  1. 相加性:如果 χ 1 2 ∼ χ 2 ( n 1 ) \chi_1^2 \sim \chi^2(n_1) χ12χ2(n1) χ 2 2 ∼ χ 2 ( n 2 ) \chi_2^2 \sim \chi^2(n_2) χ22χ2(n2) 是两个独立的卡方分布,并且它们的自由度分别为 n 1 n_1 n1 n 2 n_2 n2,那么它们的和也服从卡方分布:

χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2) χ12+χ22χ2(n1+n2)

  1. 期望和方差:如果 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2χ2(n),那么它的期望和方差分别为:

E ( χ 2 ) = n , D ( χ 2 ) = 2 n \mathbb{E}(\chi^2) = n, \quad \mathbb{D}(\chi^2) = 2n E(χ2)=n,D(χ2)=2n

这里, n n n 表示卡方分布的自由度。

卡方分布在统计学中的应用非常广泛,尤其是在假设检验、置信区间的估计、方差分析等领域。其相加性质使得卡方分布成为分析多个独立估计量的方差和的理想工具。

6.4 正态分布

当总体服从正态分布时,其抽样分布具有以下特征:

  1. 样本均值的分布

    • 假设总体 X X X 服从正态分布 N ( μ , σ 2 ) \mathrm{N(\mu, \sigma^2)} N(μ,σ2),且 X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_n X1,X2,,Xn 是从总体 X X X 中抽取的样本。
    • 样本均值 X ‾ \overline{X} X 的分布也是正态分布,且服从 X ‾ ∼ N ( μ , σ 2 n ) \overline{X} \sim \mathrm{N}\left(\mu, \frac{\sigma^2}{n}\right) XN(μ,nσ2)
    • 标准化变量 U = X ‾ − μ σ / n U = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} U=σ/n Xμ 服从标准正态分布 N ( 0 , 1 ) \mathrm{N}(0,1) N(0,1)
  2. 样本均值与样本方差的独立性

    • 样本均值 X ‾ \overline{\mathrm{X}} X 和样本方差 S 2 S^2 S2 是相互独立的。
    • 统计量 χ 2 = ( n − 1 ) S 2 σ 2 = 1 σ 2 ∑ i = 1 n ( X i − X ˉ ) 2 \chi^2 = \frac{(n-1)S^2}{\sigma^2} = \frac{1}{\sigma^2} \sum_{i=1}^n (X_i - \bar{X})^2 χ2=σ2(n1)S2=σ21i=1n(XiXˉ)2 服从自由度为 n − 1 n-1 n1 的卡方分布 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1)
  3. 样本均值的t分布

    • 当总体方差 σ 2 \sigma^2 σ2 未知时,统计量 T = X ‾ − μ S / n T = \frac{\overline{X} - \mu}{S/\sqrt{n}} T=S/n Xμ 服从自由度为 n − 1 n-1 n1 的t分布 t ( n − 1 ) t(n-1) t(n1)
  4. 卡方分布

    • 统计量 χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 \chi^2 = \frac{1}{\sigma^2} \sum_{i=1}^n (X_i - \mu)^2 χ2=σ21i=1n(Xiμ)2 服从自由度为 n n n 的卡方分布 χ 2 ( n ) \chi^2(n) χ2(n)

这些抽样分布的性质在统计推断中非常重要,它们提供了在总体参数未知时对样本数据进行分析的基础。

  • 12
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值