数理统计期末复习笔记
主要内容:
贝叶斯估计,统计决策,偏差分析,线性回归
贝叶斯方法
基本概念
-
贝叶斯派的观点认为,概率就是信念
-
贝叶斯推断: θ \theta θ:作为随机变量, X 1 , . . . , X n ∼ p ( x ∣ θ ) X_1,...,X_n\sim p(x|\theta) X1,...,Xn∼p(x∣θ),后验 ∼ \sim ∼先验*似然,即 p ( θ ∣ x 1 , . . . , x n ) ∼ p ( θ ) × p ( x 1 , . . . , x n ∣ θ ) p(\theta|x_1,...,x_n)\sim p(\theta)\times p(x_1,...,x_n|\theta) p(θ∣x1,...,xn)∼p(θ)×p(x1,...,xn∣θ)
对 θ \theta θ的贝叶斯估计: θ ^ = E ( θ ∣ x ) \hat{\theta}=E(\theta|x) θ^=E(θ∣x)
-
先验的构造:
- 平坦先验:均匀分布,密度函数为常数;但是对于数据变换并不是不变的
- Jeffery先验:先验对于fisher信息变换必须不变,即 π J ( θ ) = ( d e t ( I n ( θ ) ) ) 1 / 2 \pi_J(\theta)=(det(I_n(\theta)))^{1/2} πJ(θ)=(det(In(θ)))1/2,这里I_n是用样本的似然 p ( x ∣ θ ) p(x|\theta) p(x∣θ)求的;但是只有一维的时候比较高效
- Reference先验:希望从先验中汲取到的信息最少: p ( θ ) = argmax θ d K L ( p ( θ ) , p ( θ ∣ x ) ) p(\theta)=\operatorname{argmax}_\theta d_{KL}(p(\theta),p(\theta|x)) p(θ)=argmaxθdKL(p(θ),p(θ∣x)), d K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln p ( x ) q ( x ) d x d_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{q(x)} \mathrm{d} x dKL(P∥Q)=∫−∞∞p(x)lnq(x)p(x)dx;在一维下,Jeffery先验和reference先验相等
- conjugate先验:选择先验使得和后验的分布一样;即寻找共轭组 F F F使得先验和后验均在其中
-
贝叶斯置信区间:
P ( θ ∈ [ L ( U ) , C ( U ) ] ∣ X ) = 1 − α P(\theta\in [L(U),C(U)]|X)=1-\alpha P(θ∈[L(U),C(U)]∣X)=1−α
-
贝叶斯检验:
贝叶斯检验同样建立在后验上。在检验中,比较 P ( θ ∈ Θ 0 ∣ x ) P(\theta\in\Theta_0|x) P(θ∈Θ0∣x)和 P ( θ ∈ Θ 1 ∣ x ) P(\theta\in\Theta_1|x) P(θ∈Θ1∣x),哪个大就推断 θ \theta θ满足哪个。(设定域的自由度降低了不少)
统计决策
基本概念
-
决策规则: X X X为分布 P P P中随机产生的若干样本 根据 X X X来决定若干行动,称为决策: D : ( X , F X ) → ( A , F A ) D:(X,F_X)\rightarrow (A,F_A) D:(X,FX)→(A,FA), F F F: σ \sigma σ-域
决策的估值:loss function L ( θ , a ) L(\theta,a) L(θ,a):在情况 θ \theta θ下选择行动a的代价
eg:平方损失函数,p-范数,0-1损失函数等
-
有些决策具有随机性,需要引入风险函数: R ( θ , a ) = E θ L ( θ , a ) R(\theta,a)=E_\theta L(\theta,a) R(θ,a)=EθL(θ,a)(这里是指对 p ( X ∣ θ ) p(X|\theta) p(X∣θ)求期望,因为 a a a是根据 X X X决定的)
对于决策规则 A , B A,B A,B,如果对任意 θ \theta θ,A的选择的风险都不比B大,则称A至少和B一样好(互相=>等价)
对于一族决策规则 T \mathcal{T} T,决策规则 T ∗ T^* T∗称为 T \mathcal{T} T-最优的,如果它和任何其他决策都至少一样好
对于一组决策规则 T \mathcal{T} T,决策规则 T T T称为 T \mathcal{T} T-可采纳的(admissible),如果没有决策和它至少一样好
-
Rao-blackwell定理:对于一个非随机策略 T 0 T_0 T0和凸的损失函数,考虑 H H H为一个充分统计量,那么 T 1 = E ( T 0 ( x ) ∣ H ) T_1=E(T_0(x)|H) T1=E(T0(x)∣H)一定至少和它一样好;因此只需要考虑仅和充分统计量有关的规则即可
对决策规则的进一步提升
-
最大最小风险
最大最小估计: R n ≜ inf θ ^ ∈ T sup θ R ( θ , θ ^ ) R_n\triangleq \inf_{\hat{\theta}\in T} \sup_{\theta}R(\theta,\hat{\theta}) Rn≜infθ^∈TsupθR(θ,θ^)
即:在一族规则中,选择最大风险最小的那个
-
贝叶斯风险
考虑先验 π \pi π下贝叶斯风险为: B π ( θ ^ ) = ∫ R ( θ , θ ^ ) π ( θ ) d θ B_\pi (\hat{\theta})=\int R(\theta,\hat{\theta})\pi(\theta)d\theta Bπ(θ^)=∫R(θ,θ^)π(θ)dθ,故贝叶斯估计: inf θ ^ ∈ T B π ( θ ^ ) \inf_{\hat{\theta}\in T} B_\pi(\hat{\theta}) infθ^∈TBπ(θ^)
贝叶斯检验的性质: π \pi π为先验=>后验分布: π ( θ ∣ x ) ∼ p ( x ∣ θ ) π ( θ ) \pi(\theta|x)\sim p(x|\theta)\pi(\theta) π(θ∣x)∼p(x∣θ)π(θ)
后验风险:考虑 r ( θ ^ ∣ x ) = ∫ L ( θ , θ ^ ) π ( θ ∣ x ) d θ r(\hat{\theta}|x)=\int L(\theta,\hat{\theta})\pi(\theta|x)d\theta r(θ^∣x)=∫L(θ,θ^)π(θ∣x)dθ
定理: θ ^ ( x ) = argmin θ r ( θ ^ ∣ x ) \hat{\theta}(x)=\operatorname{argmin}_\theta r(\hat{\theta}|x) θ^(x)=argminθr(θ^∣x)
示例: L = ( θ − θ ^ ) 2 L=(\theta-\hat{\theta})^2 L=(θ−θ^)2: θ ^ \hat{\theta} θ^= π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)的期望; L = ∣ θ − θ ^ ∣ L=|\theta-\hat{\theta}| L=∣θ−θ^∣:中位数; L = 0 − 1 L=0-1 L=0−1:单峰
-
关联:拥有常数的风险函数的贝叶斯估计必然是最大最小估计
应用:证明某个策略是最大最小估计:构造恰当的先验给出一个常数风险的贝叶斯估计
注:最大似然估计MLE 渐近地是最大最小估计
偏差分析Analysis of Variance
- 对三组及以上的人群做偏差分析,对其差别做推断
单路ANOV(数据按照某个值分类)
-
模型: Y i j = θ i + ϵ i j , i = 1 ∼ I , j = 1 ∼ n i Y_{ij}=\theta_i+\epsilon_{ij},i=1\sim I,j=1\sim n_i Yij=θi+ϵij,i=1∼I,j=1∼ni,其中 E ( ϵ i j ) = 0 , V a r ( ϵ i j ) = σ i 2 E(\epsilon_{ij})=0,Var(\epsilon_{ij})=\sigma_i^2 E(ϵij)=0,Var(ϵij)=σi2
替代模型: Y i j = μ + γ i + ϵ i j Y_{ij}=\mu+\gamma_i+\epsilon_{ij} Yij=μ+γi+ϵij,但是不是可确定(identifiable)模型,因为参数值和分布并不一一对应
其它假设:
- 方差齐性(homoscedasticity),即 σ i 2 = σ 2 \sigma_i^2=\sigma^2 σi2=σ2,否则不好估计(如果无法满足,考虑使用box-cox变换:取 ( y λ − 1 ) / λ (y^\lambda-1)/\lambda (yλ−1)/λ)
- 正态性: ϵ i j ∼ N ( 0 , σ 2 ) \epsilon_{ij}\sim N(0,\sigma^2) ϵij∼N(0,σ2)
-
ANOVA检验:
希望检验: H 0 : θ 1 = . . . . = θ I H_0:\theta_1=....=\theta_I H0:θ1=....=θI
S S T O T = ∑ i ∑ j ( Y i j − Y ‾ ) 2 = ∑ i ∑ j ( Y i j − Y ‾ i ⋅ ) 2 + ∑ i n i ( Y ‾ i ⋅ − Y ‾ ⋅ ⋅ ) 2 = S S W + S S B SS_{TOT}=\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2=\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2+\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2=SS_W+SS_B SSTOT=∑i∑j(Yij−Y)2=∑i∑j(Yij−Yi⋅)2+∑ini(Yi⋅−Y⋅⋅)2=SSW+SSB(w: within group, b: between group)
推论:在方差齐性假设下: E ( S S W ) = ∑ i ( n i − 1 ) σ 2 , E ( S S B ) = ∑ i n i ( θ i − θ ‾ ) 2 + ( I − 1 ) σ 2 E(SS_W)=\sum_i (n_i-1)\sigma^2, E(SS_B)=\sum_i n_i(\theta_i-\overline{\theta})^2+(I-1)\sigma^2 E(SSW)=∑i(ni−1)σ2,E(SSB)=∑ini(θi−θ)2+(I−1)σ2
一个很常用的引理: E ( X i ) = μ i , V a r ( X i ) = σ 2 E(X_i)=\mu_i, Var(X_i)=\sigma^2 E(Xi)=μi,Var(Xi)=σ2,则 E ( X i − X ‾ ) 2 = ( μ i − μ ‾ ) 2 + n − 1 n σ 2 E(X_i-\overline{X})^2=(\mu_i-\overline{\mu})^2+\frac{n-1}{n} \sigma^2 E(Xi−X)2=(μi−μ<