前言:
总结一下数理统计中的基本概念,一些用python的实现在这里。不断持续更新。
1. 几个基本概念
1.1 次序统计量
1.2 样本偏度与样本峰度
1.3 经验分布函数
1.4 抽样分布
2. 统计中的常用分布
2.1 卡方分布
2.2 t 分布
2.3 F分布
3. 指数型分布族(和广义线性模型有关)
4. 点估计
4.1 极大似然估计
5. 区间估计
5.1 几个基本概念
6. 假设检验——显著性检验
6.1 几个基本概念
6.2 求取某假设的显著性检验的步骤
6.3 似然比检验
6.4 p值
1. 几个基本概念:
1.1 次序统计量:
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn为样本,把 X 1 , X 2 , … , X n X_1, X_2, …, X_n X1,X2,…,Xn由小到大排列成 X ( 1 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le\cdots\le X_{(n)} X(1)≤⋯≤X(n),则称 ( X ( 1 ) , ⋯ , X ( n ) ) (X_{(1)}, \cdots, X_{(n)}) (X(1),⋯,X(n))为次序统计量, X ( i ) X_{(i)} X(i)则成为第 i i i个次序统计量。
-
样本 p p p分位数:对于给定的 p ∈ ( 0 , 1 ) p \in (0, 1) p∈(0,1),我们称: m n , p = X ( [ n p ] ) + ( n + 1 ) ( p − [ n p ] n + 1 ) ( X ( [ n p ] + 1 ) − X ( [ n p ] ) ) (1) m_n,_p=X_{([np])}+(n+1)(p-\frac{[np]}{n+1})(X_{([np]+1)}-X_{([np])}) \tag1 mn,p=X([np])+(n+1)(p−n+1[np])(X([np]+1)−X([np]))(1)为此样本的 p p p分位数. 特别的,样本中位数定义为: X m e d = { X ( n + 1 2 ) n 为 奇 数 X ( n 2 ) + X ( n 2 + 1 ) 2 n 为 偶 数 (2) X_{med} =\begin{cases}X_{(\frac{n+1}{2})}&n为奇数\\\\\frac{X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}}{2}&n为偶数\end{cases}\tag2 Xmed=⎩⎪⎨⎪⎧X(2n+1)2X(2n)+X(2n+1)n为奇数n为偶数(2)
-
极值统计量:称 X ( 1 ) X_{(1)} X(1)和 X ( n ) X_{(n)} X(n)为极小值和极大值统计量.
-
极差: R = X ( n ) − X ( 1 ) R=X_{(n)}-X_{(1)} R=X(n)−X(1)
1.2 样本偏度与样本峰度:
- 样本偏度: n ∑ i = 1 n ( X i − X ˉ ) 3 [ ∑ i = 1 n ( X i − X ˉ ) 2 ] 3 2 \frac{\sqrt{n}\sum\limits_{i=1}^n(X_i-\bar{X})^3}{[\sum\limits_{i=1}^n(X_i-\bar{X})^2]^{\frac{3}{2}}} [i=1∑n(Xi−Xˉ)2]23ni=1∑n(Xi−Xˉ)3,可以用来度量随机变量概率分布的不对称性。大于0时,概率分布图右偏;小于0时,概率分布图左偏。
- 样本峰度: n ∑ i = 1 n ( X i − X ˉ ) 4 [ ∑ i = 1 n ( X i − X ˉ ) 2 ] 2 − 3 \frac{n\sum\limits_{i=1}^n(X_i-\bar{X})^4}{[\sum\limits^n_{i=1}(X_i-\bar{X})^2]^2}-3 [i=1∑n(Xi−Xˉ)2]2ni=1∑n(Xi−Xˉ)4−3,用来度量随机变量概率分布的陡峭程度。峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。
- 详见偏态分布学习笔记(期望,中位数,众数)
1.3 经验分布函数:
设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为取自总体的分布函数为 F ( x ) F(x) F(x)的样本, X ( 1 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le\cdots\le X_{(n)} X(1)≤⋯≤X(n)为其次序统计量,则称: F n ( x ) = 1 n ∑ i = 1 n I { X i < x } = { 0 x ≤ X ( 1 ) k n X ( k ) < x ≤ X ( k + 1 ) , k = 1 , ⋯ , n − 1 1 x > X ( n ) (3) F_n(x)=\frac{1}{n}\sum\limits_{i=1}^nI_{\{X_i\lt x\}}=\begin{cases}0 &x\le X_{(1)}\\\frac{k}{n} &X_{(k)}\lt x\le X_{(k+1)}, k=1, \cdots , n-1\\1 &x\gt X_{(n)}\end{cases}\tag3 Fn(x)=n1i=1∑nI{ Xi<x}=⎩⎪⎨⎪⎧0nk1x≤X(1)X(k)<x≤X(k+1),k=1,⋯,n−1x>X(n)(3)为样本 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn的经验分布函数。
1.4 抽样分布:
统计量是作为随机变量的样本的函数,故它也有概率分布,于是我们称统计量的概率分布为该统计量的抽样分布。
- 一个重要的抽样分布:设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的 I I D IID IID样本,则由概率论的知识可知 X ˉ ∼ N ( μ , σ 2 n ) \bar{X}\sim N(\mu, \frac{\sigma^2}{n}) Xˉ∼N(μ,nσ2)
2. 统计中的常用分布:
2.1 卡方分布:
设 X 1 , ⋯ , X n ∼ N ( 0 , 1 ) X_1, \cdots, X_n\sim N(0, 1) X1,⋯,Xn∼N(0,1)且是独立同分布的,则称随机变量 ξ = ∑ i = 1 n X i 2 (4) \xi =\sum\limits_{i=1}^nX_i^2\tag4 ξ=i=1∑nXi2(4)所服从的分布为自由度为 n n n的 χ 2 \chi^2 χ2分布,也称 ξ \xi ξ为自由度为 n n n的 χ 2 \chi^2 χ2随机变量,并记为 ξ ∼ χ 2 ( n ) \xi\sim\chi^2(n) ξ∼χ2(n).
- P D F PDF PDF: f ( x ) = { 1 2 n / 2 Γ ( n / 2 ) e − x 2 x n 2 − 1 ,