数理统计期末复习笔记(二)

本文是数理统计的期末复习笔记,重点涵盖了贝叶斯方法、统计决策、偏差分析和线性回归。介绍了贝叶斯估计、决策规则、ANOVA分析和线性回归模型,包括简单和多元线性回归的细节,如残差分析和模型检验。
摘要由CSDN通过智能技术生成

数理统计期末复习笔记

主要内容:
贝叶斯估计,统计决策,偏差分析,线性回归

贝叶斯方法

基本概念
  • 贝叶斯派的观点认为,概率就是信念

  • 贝叶斯推断: θ \theta θ:作为随机变量, X 1 , . . . , X n ∼ p ( x ∣ θ ) X_1,...,X_n\sim p(x|\theta) X1,...,Xnp(xθ),后验 ∼ \sim 先验*似然,即 p ( θ ∣ x 1 , . . . , x n ) ∼ p ( θ ) × p ( x 1 , . . . , x n ∣ θ ) p(\theta|x_1,...,x_n)\sim p(\theta)\times p(x_1,...,x_n|\theta) p(θx1,...,xn)p(θ)×p(x1,...,xnθ)

    θ \theta θ的贝叶斯估计: θ ^ = E ( θ ∣ x ) \hat{\theta}=E(\theta|x) θ^=E(θx)

  • 先验的构造:

    • 平坦先验:均匀分布,密度函数为常数;但是对于数据变换并不是不变的
    • Jeffery先验:先验对于fisher信息变换必须不变,即 π J ( θ ) = ( d e t ( I n ( θ ) ) ) 1 / 2 \pi_J(\theta)=(det(I_n(\theta)))^{1/2} πJ(θ)=(det(In(θ)))1/2,这里I_n是用样本的似然 p ( x ∣ θ ) p(x|\theta) p(xθ)求的;但是只有一维的时候比较高效
    • Reference先验:希望从先验中汲取到的信息最少: p ( θ ) = argmax ⁡ θ d K L ( p ( θ ) , p ( θ ∣ x ) ) p(\theta)=\operatorname{argmax}_\theta d_{KL}(p(\theta),p(\theta|x)) p(θ)=argmaxθdKL(p(θ),p(θx)), d K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) q ( x ) d x d_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{q(x)} \mathrm{d} x dKL(PQ)=p(x)lnq(x)p(x)dx;在一维下,Jeffery先验和reference先验相等
    • conjugate先验:选择先验使得和后验的分布一样;即寻找共轭组 F F F使得先验和后验均在其中
  • 贝叶斯置信区间:

    P ( θ ∈ [ L ( U ) , C ( U ) ] ∣ X ) = 1 − α P(\theta\in [L(U),C(U)]|X)=1-\alpha P(θ[L(U),C(U)]X)=1α

  • 贝叶斯检验:

    贝叶斯检验同样建立在后验上。在检验中,比较 P ( θ ∈ Θ 0 ∣ x ) P(\theta\in\Theta_0|x) P(θΘ0x) P ( θ ∈ Θ 1 ∣ x ) P(\theta\in\Theta_1|x) P(θΘ1x),哪个大就推断 θ \theta θ满足哪个。(设定域的自由度降低了不少)

统计决策

基本概念
  • 决策规则: X X X为分布 P P P中随机产生的若干样本 根据 X X X来决定若干行动,称为决策: D : ( X , F X ) → ( A , F A ) D:(X,F_X)\rightarrow (A,F_A) D:(X,FX)(A,FA), F F F σ \sigma σ-域

    决策的估值:loss function L ( θ , a ) L(\theta,a) L(θ,a):在情况 θ \theta θ下选择行动a的代价

    eg:平方损失函数,p-范数,0-1损失函数等

  • 有些决策具有随机性,需要引入风险函数: R ( θ , a ) = E θ L ( θ , a ) R(\theta,a)=E_\theta L(\theta,a) R(θ,a)=EθL(θ,a)(这里是指对 p ( X ∣ θ ) p(X|\theta) p(Xθ)求期望,因为 a a a是根据 X X X决定的)

    对于决策规则 A , B A,B A,B,如果对任意 θ \theta θ,A的选择的风险都不比B大,则称A至少和B一样好(互相=>等价)

    对于一族决策规则 T \mathcal{T} T,决策规则 T ∗ T^* T称为 T \mathcal{T} T-最优的,如果它和任何其他决策都至少一样好

    对于一组决策规则 T \mathcal{T} T,决策规则 T T T称为 T \mathcal{T} T-可采纳的(admissible),如果没有决策和它至少一样好

  • Rao-blackwell定理:对于一个非随机策略 T 0 T_0 T0和凸的损失函数,考虑 H H H为一个充分统计量,那么 T 1 = E ( T 0 ( x ) ∣ H ) T_1=E(T_0(x)|H) T1=E(T0(x)H)一定至少和它一样好;因此只需要考虑仅和充分统计量有关的规则即可

对决策规则的进一步提升
  • 最大最小风险

    最大最小估计: R n ≜ inf ⁡ θ ^ ∈ T sup ⁡ θ R ( θ , θ ^ ) R_n\triangleq \inf_{\hat{\theta}\in T} \sup_{\theta}R(\theta,\hat{\theta}) Rninfθ^TsupθR(θ,θ^)

    即:在一族规则中,选择最大风险最小的那个

  • 贝叶斯风险

    考虑先验 π \pi π下贝叶斯风险为: B π ( θ ^ ) = ∫ R ( θ , θ ^ ) π ( θ ) d θ B_\pi (\hat{\theta})=\int R(\theta,\hat{\theta})\pi(\theta)d\theta Bπ(θ^)=R(θ,θ^)π(θ)dθ,故贝叶斯估计: inf ⁡ θ ^ ∈ T B π ( θ ^ ) \inf_{\hat{\theta}\in T} B_\pi(\hat{\theta}) infθ^TBπ(θ^)

    贝叶斯检验的性质: π \pi π为先验=>后验分布: π ( θ ∣ x ) ∼ p ( x ∣ θ ) π ( θ ) \pi(\theta|x)\sim p(x|\theta)\pi(\theta) π(θx)p(xθ)π(θ)

    后验风险:考虑 r ( θ ^ ∣ x ) = ∫ L ( θ , θ ^ ) π ( θ ∣ x ) d θ r(\hat{\theta}|x)=\int L(\theta,\hat{\theta})\pi(\theta|x)d\theta r(θ^x)=L(θ,θ^)π(θx)dθ

    定理: θ ^ ( x ) = argmin ⁡ θ r ( θ ^ ∣ x ) \hat{\theta}(x)=\operatorname{argmin}_\theta r(\hat{\theta}|x) θ^(x)=argminθr(θ^x)

    示例: L = ( θ − θ ^ ) 2 L=(\theta-\hat{\theta})^2 L=(θθ^)2 θ ^ \hat{\theta} θ^= π ( θ ∣ x ) \pi(\theta|x) π(θx)的期望; L = ∣ θ − θ ^ ∣ L=|\theta-\hat{\theta}| L=θθ^:中位数; L = 0 − 1 L=0-1 L=01:单峰

  • 关联:拥有常数的风险函数的贝叶斯估计必然是最大最小估计

    应用:证明某个策略是最大最小估计:构造恰当的先验给出一个常数风险的贝叶斯估计

    注:最大似然估计MLE 渐近地是最大最小估计

偏差分析Analysis of Variance

  • 对三组及以上的人群做偏差分析,对其差别做推断
单路ANOV(数据按照某个值分类)
  • 模型: Y i j = θ i + ϵ i j , i = 1 ∼ I , j = 1 ∼ n i Y_{ij}=\theta_i+\epsilon_{ij},i=1\sim I,j=1\sim n_i Yij=θi+ϵij,i=1I,j=1ni,其中 E ( ϵ i j ) = 0 , V a r ( ϵ i j ) = σ i 2 E(\epsilon_{ij})=0,Var(\epsilon_{ij})=\sigma_i^2 E(ϵij)=0,Var(ϵij)=σi2

    替代模型: Y i j = μ + γ i + ϵ i j Y_{ij}=\mu+\gamma_i+\epsilon_{ij} Yij=μ+γi+ϵij,但是不是可确定(identifiable)模型,因为参数值和分布并不一一对应

    其它假设:

    • 方差齐性(homoscedasticity),即 σ i 2 = σ 2 \sigma_i^2=\sigma^2 σi2=σ2,否则不好估计(如果无法满足,考虑使用box-cox变换:取 ( y λ − 1 ) / λ (y^\lambda-1)/\lambda (yλ1)/λ
    • 正态性: ϵ i j ∼ N ( 0 , σ 2 ) \epsilon_{ij}\sim N(0,\sigma^2) ϵijN(0,σ2)
  • ANOVA检验:

    希望检验: H 0 : θ 1 = . . . . = θ I H_0:\theta_1=....=\theta_I H0:θ1=....=θI

    S S T O T = ∑ i ∑ j ( Y i j − Y ‾ ) 2 = ∑ i ∑ j ( Y i j − Y ‾ i ⋅ ) 2 + ∑ i n i ( Y ‾ i ⋅ − Y ‾ ⋅ ⋅ ) 2 = S S W + S S B SS_{TOT}=\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2=\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2+\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2=SS_W+SS_B SSTOT=ij(YijY)2=ij(YijYi)2+ini(YiY⋅⋅)2=SSW+SSB(w: within group, b: between group)

    推论:在方差齐性假设下: E ( S S W ) = ∑ i ( n i − 1 ) σ 2 , E ( S S B ) = ∑ i n i ( θ i − θ ‾ ) 2 + ( I − 1 ) σ 2 E(SS_W)=\sum_i (n_i-1)\sigma^2, E(SS_B)=\sum_i n_i(\theta_i-\overline{\theta})^2+(I-1)\sigma^2 E(SSW)=i(ni1)σ2,E(SSB)=ini(θiθ)2+(I1)σ2

    一个很常用的引理 E ( X i ) = μ i , V a r ( X i ) = σ 2 E(X_i)=\mu_i, Var(X_i)=\sigma^2 E(Xi)=μi,Var(Xi)=σ2,则 E ( X i − X ‾ ) 2 = ( μ i − μ ‾ ) 2 + n − 1 n σ 2 E(X_i-\overline{X})^2=(\mu_i-\overline{\mu})^2+\frac{n-1}{n} \sigma^2 E(XiX)2=(μiμ<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值