统计学习方法第一章公式推导

一、第一篇 监督学习

第一章 统计学习及监督学习概论

定理1.1–泛化误差上界

  • 泛化误差:(generalization error)

    若学习到的模型为 f ^ \hat{f} f^ ,则用这个模型对未知数据集预测的误差称为泛化误差,它表现的是模型对未知数据的预测能力,事实上泛化误差就是所学习到的模型的期望风险
    R exp ⁡ ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x   d y \begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned} Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dx dy

  • 期望风险:
    R ( f ) = E [ L ( Y , f ( x ) ) ] R(f) = E[L(Y,f(x))] R(f)=E[L(Y,f(x))]

  • 经验风险:
    R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat{R} (f) = \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) R^(f)=N1i=1NL(yi,f(xi))

  • 泛化误差上界定理

    定理 1.1 1.1 1.1 (泛化误差上界) 对二类分类问题, 当假设空间是有限个函数的集合 F = { f 1 , f 2 , ⋯   , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd} 时, 对任意一个函数 f ∈ F f \in \mathcal{F} fF, 至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta<1 1δ,0<δ<1, 以下 不等式成立:
    R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ ) R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) R(f)R^(f)+ε(d,N,δ)
    其中,
    ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)
    d为假设空间中备选模型的数量,N为样本数量

  • Hoeffiding不等式

    设有随机变量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 的独立随机变量序列, S n = ∑ i = 1 N x i S_n=\sum\limits_{i=1}^Nx_i Sn=i=1Nxi是独立随机变量之和, E ( S n ) = E ( ∑ i = 1 N x i ) E(S_n) = E(\sum\limits_{i=1}^Nx_i) E(Sn)=E(i=1Nxi)为随机变量和的期望, x i ∈ [ a i , b i ] x_i\isin[a_i,b_i] xi[ai,bi](x取值在 a i a_i ai b i b_i bi之间),则对任意 t > 0 t>0 t>0,以下不等式成立
    P ( S n − E ( S n ) ⩾ t ) ⩽ e ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P\left(S_{n}-E\left(S_{n}\right) \geqslant t\right) \leqslant e^{\left(\frac{-2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)} P(SnE(Sn)t)e(i=1n(biai)22t2)
    或者
    P ( E ( S n ) − S n ⩾ t ) ⩽ e ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P\left(E\left(S_{n}\right)-S_{n} \geqslant t\right) \leqslant e^{\left(\frac{-2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)} P(E(Sn)Snt)e(i=1n(biai)22t2)
    在这里 ( b i − a i ) 2 (b_i-a_i)^2 (biai)2可以看成是常数


二分类问题泛化误差上界定理证明

  • 二分类问题,有随机变量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 的独立随机变量序列, S n = ∑ i = 1 n x i S_n=\sum\limits_{i=1}^nx_i Sn=i=1nxi,如果其损失函数取值区间为 [ 0 , 1 ] [0,1] [0,1],即 x i ∈ [ 0 , 1 ] x_i \isin[0,1] xi[0,1], X ˉ \bar{X} Xˉ是独立变量的均值,即 X ˉ = S n n = 1 N ∑ i = 1 N X i \bar{X}=\frac{S_n}{n}=\frac{1}{N} \sum\limits_{i=1}^{N} X_{i} Xˉ=nSn=N1i=1NXi,那么 E ( X ˉ n ) = 1 n E ( S n ) E(\bar X_n) = \frac{1}{n}E(S_n) E(Xˉn)=n1E(Sn),则有以下公式成立
    P ( X ˉ n − E ( X ˉ n ) ≥ t ) = P ( S n n − E ( S n ) n ≥ t ) = P ( S n − E ( S n ) ≥ n t ) P(\bar X_n - E(\bar X_n)\geq t) = P(\frac{S_n}{n}-\frac{E(S_n)}{n}\geq t) = P(S_n-E(S_n)\geq nt) P(XˉnE(Xˉn)t)=P(nSnnE(Sn)t)=P(SnE(Sn)nt)
    那么根据Hodffding不等式
    P ( X ˉ n − E ( X ˉ n ) ≥ t ) = P ( S n − E ( S n ) ≥ n t ) ≤ e ( − 2 n 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) \begin{aligned} P(\bar X_n - E(\bar X_n)\geq t) & = P(S_n-E(S_n)\geq nt) \\ & \leq e ^{\left(\frac{-2 n^2 t^{2}}{\sum\limits_{i=1}^n\left(b_{i}-a i\right)^{2}}\right)} \end{aligned} P(XˉnE(Xˉn)t)=P(SnE(Sn)nt)e(i=1n(biai)22n2t2)
    因为 ( b i − a i ) 2 (b_i-a_i)^2 (biai)2可看成常数(在这里是0)所以后面的小于等于实际上为 e − n e^{-n} en阶,当n趋于无穷打时候, e − n e^{-n} en是趋于0的,即当样本量很大的时候,该随机变量均值到均值期望之间大于等于一个数(t)的概率是很小的(趋于0的)。

    从分类问题的模型假设空间 F \mathcal F F( F = { f 1 , f 2 , ⋯   , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd}是个有限集合)中任选一个备选模型f,其训练集经验风险为
    R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat{R} (f) = \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) R^(f)=N1i=1NL(yi,f(xi))
    测试集期望风险为:
    R ( f ) = E [ L ( Y , f ( x ) ) ] R(f) = E[L(Y,f(x))] R(f)=E[L(Y,f(x))]
    则利用上面转换的公式,将 t 换成 ϵ \epsilon ϵ ,区间取值[a,b]换成[0,1],则幂函数上的指数变为 − 2 N 2 ϵ 2 N = − 2 N ϵ 2 -\frac{2N^2\epsilon^2}{N}=-2N\epsilon^2 N2N2ϵ2=2Nϵ2
    P ( R ( f ) − R ^ ( f ) ⩾ ε ) ⩽ exp ⁡ ( − 2 N ε 2 ) P(R(f)-\hat{R}(f) \geqslant \varepsilon) \leqslant \exp \left(-2 N \varepsilon^{2}\right) P(R(f)R^(f)ε)exp(2Nε2)
    上述公式为从假设空间中任选的一个模型,假设空间中共有d个备选模型,我们并不知道我们未来将要使用哪个模型,我们期望这d个备选模型在训练集上的经验风险 R ^ ( f ) \hat R(f) R^(f)和测试集上的期望风险 R ( f ) R(f) R(f)之间的差值都不打,即我们期望这两个风险之间的差值大于等于某个数(比如这里的 ϵ \epsilon ϵ,原则上这个数要足够小)的概率要非常低,即在假设空间中至少存在一个模型满足这个条件,用以下公式来表达:
    P ( ∃ f ∈ F : R ( f ) − R ^ ( f ) ⩾ ε ) = P ( ⋃ f ∈ F { R ( f ) − R ^ ( f ) ⩾ ε } ) ⩽ ∑ f ∈ F P ( R ( f ) − R ^ ( f ) ⩾ ε ) ⩽ d e ( − 2 N ε 2 ) \begin{aligned} P(\exists f \in \mathcal{F}: R(f)-\hat{R}(f) \geqslant \varepsilon) &=P ( \bigcup_{f \in \mathcal{F}}\{R(f)-\hat{R}(f) \geqslant \varepsilon\} ) \\ & \leqslant \sum_{f \in \mathcal{F}} P(R(f)-\hat{R}(f) \geqslant \varepsilon) \\ & \leqslant d e^{(-2 N \varepsilon^{2})} \end{aligned} P(fF:R(f)R^(f)ε)=P(fF{R(f)R^(f)ε})fFP(R(f)R^(f)ε)de(2Nε2)
    这样我们考虑对立事件就是:任取一个模型,两个风险之间的差值都要以一个很大的概率小于某一个足够小的数 ϵ \epsilon ϵ

    ,等价的, 对任意 f ∈ F f \in \mathcal{F} fF, 有
    P ( ∀ f ∈ F : R ( f ) − R ^ ( f ) < ε ) ⩾ 1 − d exp ⁡ ( − 2 N ε 2 ) P(\forall f \in \mathcal{F}: R(f)-\hat{R}(f)<\varepsilon) \geqslant 1-d \exp \left(-2 N \varepsilon^{2}\right) P(fFR(f)R^(f)<ε)1dexp(2Nε2)

    δ = d e ( − 2 N ε 2 ) \delta=d e^ {(-2 N \varepsilon^{2})} δ=de(2Nε2)

    P ( R ( f ) < R ^ ( f ) + ε ) ⩾ 1 − δ P(R(f)<\hat{R}(f)+\varepsilon) \geqslant 1-\delta P(R(f)<R^(f)+ε)1δ
    即至少以概率 1 − δ 1-\delta 1δ R ( f ) < R ^ ( f ) + ε R(f)<\hat{R}(f)+\varepsilon R(f)<R^(f)+ε

    其中
    δ = d e ( − 2 N ϵ 2 ) ln ⁡ δ = ln ⁡ d − 2 N ϵ 2 2 N ϵ 2 = ln ⁡ d − ln ⁡ n 2 N ϵ 2 = ln ⁡ d + ln ⁡ 1 δ ϵ = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \begin{aligned} \delta & = de^{(-2N\epsilon^2)}\\ \ln\delta & = \ln d -2N\epsilon^2 \\ 2N\epsilon^2 & = \ln d -\ln n\\ 2N\epsilon^2 & = \ln d + \ln {\frac{1}{\delta}}\\ \epsilon & = \sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \end{aligned} δlnδ2Nϵ22Nϵ2ϵ=de(2Nϵ2)=lnd2Nϵ2=lndlnn=lnd+lnδ1=2N1(logd+logδ1)

以上讨论的只是假设空间包含有限个函数情况下的泛化误差上界,对一半的假设空间要找到泛化误差界就没有那么简单了


极大似然估计和贝叶斯估计(掷硬币问题)

  • 极大似然估计

    在掷硬币实验中用1表示出现正面向上,用0表示出现反面向上,即
    x i = { 1 , 正面出现 0 , 反面出现 x_i= \left\{ \begin{aligned} 1,\quad正面出现 \\ 0,\quad反面出现 \end{aligned} \right. xi={1,正面出现0,反面出现
    估计出现正面向上的概率为 θ \theta θ,反面出现向上的概率为 1 − θ 1-\theta 1θ,$x_i \sim B(1.,\theta) $,概率分布函数为
    P ( X = x ) = θ x ( 1 − θ ) 1 − x = { P ( x = 0 ) = 1 − θ P ( x = 1 ) = θ P(X=x) = \theta^x(1-\theta)^{1-x} = \left\{ \begin{aligned} P(x=0) & = 1-\theta \\ P(x=1) & = \theta \end{aligned} \right. P(X=x)=θx(1θ)1x={P(x=0)P(x=1)=1θ=θ
    似然函数:
    L ( θ ) = P ( X 1 = x 1 ∣ θ ) ∗ ⋯ ∗ P ( X n = x n ∣ θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i \begin{aligned} L(\theta) & = P(X_1=x_1|\theta)*\cdots*P(X_n=x_n|\theta) \\ & = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} \end{aligned} L(θ)=P(X1=x1θ)P(Xn=xnθ)=i=1nθxi(1θ)1xi
    对数似然函数:
    ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i = ∑ i = 1 n [ ln ⁡ θ x i + ln ⁡ ( 1 − θ ) 1 − x i ] = ∑ i = 1 n x i ln ⁡ θ + ∑ i = 1 n ( 1 − x i ) ln ⁡ ( 1 − θ ) = ∑ i = 1 n x i ln ⁡ θ + ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 − θ ) \begin{aligned} \ln {L(\theta)} & = \ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \sum_{i=1}^n\left[ \ln\theta^{x_i} + \ln{(1- \theta)^{1-x_i} } \right]\\ & = \sum_{i=1}^nx_i\ln \theta + \sum_{i=1}^n(1-x_i)\ln{(1- \theta)} \\ & = \sum_{i=1}^nx_i\ln \theta + (n-\sum_{i=1}^nx_i)\ln{(1- \theta)} \end{aligned} lnL(θ)=lni=1nθxi(1θ)1xi=i=1n[lnθxi+ln(1θ)1xi]=i=1nxilnθ+i=1n(1xi)ln(1θ)=i=1nxilnθ+(ni=1nxi)ln(1θ)
    目标 m a x ln ⁡ L ( θ ) \mathcal {max} \ln L(\theta) maxlnL(θ)

    θ \theta θ求偏导
    ∂ ln ⁡ L ( θ ) ∂ θ = ∑ i = 1 n x i θ − n − ∑ i = 1 n x i 1 − θ \\ \frac{\partial\ln L(\theta)}{\partial \theta}=\frac{\sum\limits_{i=1}^nx_i}{\theta}-\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta} θlnL(θ)=θi=1nxi1θni=1nxi
    令偏导数等于0,则
    ∑ i = 1 n x i θ = n − ∑ i = 1 n x i 1 − θ \frac{\sum\limits_{i=1}^nx_i}{\theta}=\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta} θi=1nxi=1θni=1nxi
    求出
    θ ^ = 1 n ∑ i = 1 n x i \hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i θ^=n1i=1nxi

  • 贝叶斯估计

    假设已知先验概率为 β \beta β分布
    π ( θ ) = Γ ( α + β ) Γ ( α ) Γ ( β ) θ α − 1 ( 1 − θ ) β − 1 \pi(\theta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1} π(θ)=Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1
    求后验概率 P ( θ ∣ x 1 , x 2 , . . . , x n ) P(\theta \mathcal{|} x_1,x_2,...,x_n) P(θx1,x2,...,xn)
    P ( θ ∣ x 1 , x 2 , . . . , x n ) = P ( θ , x 1 , x 2 , . . . , x n ) P ( x 1 , x 2 , . . . , x n ) = π ( θ ) ∗ p ( x 1 ∣ θ ) ∗ ⋯ ∗ p ( x n ∣ θ ) ∫ P ( θ , x 1 , x 2 , . . . , x n ) d θ ∝ π ( θ ) ∗ p ( x 1 ∣ θ ) ∗ ⋯ ∗ p ( x n ∣ θ ) = θ α − 1 ( 1 − θ ) β − 1 ∗ ln ⁡ ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i = θ ∑ x i + α − 1 ∗ ( 1 − θ ) n − ∑ x i + β − 1 \begin{aligned} P(\theta \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\theta,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{\pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta)}{\int P(\theta,x_1,x_2,...,x_n) \mathcal{d} \theta} \\ &\propto \pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta) \\ & = \theta^{\alpha-1}(1-\theta)^{\beta-1}*\ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1} \end{aligned} P(θx1,x2,...,xn)=P(x1,x2,...,xn)P(θ,x1,x2,...,xn)=P(θ,x1,x2,...,xn)dθπ(θ)p(x1θ)p(xnθ)π(θ)p(x1θ)p(xnθ)=θα1(1θ)β1lni=1nθxi(1θ)1xi=θxi+α1(1θ)nxi+β1
    备注:

    1. 因为 ∫ P ( θ , x 1 , x 2 , . . . , x n ) d θ \int P(\theta,x_1,x_2,...,x_n) d\theta P(θ,x1,x2,...,xn)dθ已将 θ \theta θ积分挤掉了,所以与其无关,为一个常数;
    2. ∝ \propto :正比于;
    3. Γ ( α + β ) Γ ( α ) Γ ( β ) \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} Γ(α)Γ(β)Γ(α+β) 也是一个常数不考虑;
    4. θ ∑ x i + α − 1 ∗ ( 1 − θ ) n − ∑ x i + β − 1 \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1} θxi+α1(1θ)nxi+β1是参数为 ∑ x i + α − 1 , n − ∑ x i + β − 1 \sum x_i + \alpha -1,n-\sum x_i +\beta -1 xi+α1,nxi+β1 β \beta β分布

    此时 L ( θ ) L(\theta) L(θ)
    L ( θ ) = θ ∑ x i + α − 1 ∗ ( 1 − θ ) n − ∑ x i + β − 1 L(\theta) = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1} L(θ)=θxi+α1(1θ)nxi+β1
    对数似然
    ln ⁡ L ( θ ) = ( ∑ i = 1 n x i + α − 1 ) ln ⁡ θ + ( n − ∑ i = 1 n x i + β − 1 ) ln ⁡ ( 1 − θ ) \ln L(\theta) = (\sum\limits_{i=1}^n x_i + \alpha -1)\ln \theta +(n-\sum \limits_{i=1}^n x_i +\beta -1)\ln(1-\theta) lnL(θ)=(i=1nxi+α1)lnθ+(ni=1nxi+β1)ln(1θ)
    θ \theta θ求偏导 :
    ∂ ln ⁡ L ( θ ) ∂ θ = ∑ i = 1 n x i + α − 1 θ − n − ∑ i = 1 n x i + β − 1 1 − θ \frac{\partial\ln L(\theta)}{\partial \theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} - \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta} θlnL(θ)=θi=1nxi+α11θni=1nxi+β1
    令偏导数等于0,则
    ∑ i = 1 n x i + α − 1 θ = n − ∑ i = 1 n x i + β − 1 1 − θ \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} = \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta} θi=1nxi+α1=1θni=1nxi+β1
    求出:
    θ ^ = ∑ i = 1 n x i + α − 1 n + α + β − 2 \hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2} θ^=n+α+β2i=1nxi+α1

  • 极大似然和贝叶斯总结

    1. 对比极大似然 θ \theta θ估计值 θ ^ = 1 n ∑ i = 1 n x i \hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i θ^=n1i=1nxi和贝叶斯估计值 θ ^ = ∑ i = 1 n x i + α − 1 n + α + β − 2 \hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2} θ^=n+α+β2i=1nxi+α1,当样本n趋于无穷大的时候,两者 θ \theta θ的估计值是区域一致的;
    2. 贝叶斯估计中会给出参数的先验信息,当样本n足够大的时候,我们先前的先验信息和样本信息比就微不足道了,所以就近似于只用所有样本信息去估计 θ \theta θ所得到的结果;
    3. 考虑极端情况下,n=1,通过极大似然估计,结果是0,或者是1,但是在贝叶斯估计中,若样本n=1,那么贝叶斯估计结果就是 α α + β − 1 \frac{ \alpha }{\alpha +\beta -1} α+β1α或者 α − 1 α + β − 1 \frac{ \alpha-1 }{\alpha +\beta -1} α+β1α1,这是样本量雄安的时候,贝叶斯估计的优势所在。

推导正太分布均值的极大似然估计和贝叶斯估计

  • 问题

    推导下述正太分布均值的极大似然估计和贝叶斯估计,数据 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn来自正太分布 N ( μ , σ 2 ) \mathcal{N}(\mu,\sigma^2) N(μ,σ2),其中 σ 2 \sigma^2 σ2已知:

    1. 根据样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn写出 μ \mu μ的极大似然估计
    2. 假设 μ \mu μ的先验分布是 N ( 0 , τ 2 ) \mathcal{N}(0,\tau^2) N(0,τ2),根据样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn写出 μ \mu μ的贝叶斯估计
  • 1、根据样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn写出 μ \mu μ的极大似然估计

    样本的概率密度函数 f ( x i ) = 1 2 π σ exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) i = 1 , 2 , . . . . . , n f(x_i)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \quad i=1,2,.....,n f(xi)=2π σ1exp(2σ2(xiμ)2)i=1,2,.....,n

    似然函数:
    L ( x i ; μ ) = ∏ i = 1 n f ( x i ; μ ) = ( 2 π σ ) − n ∗ exp ⁡ ( − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ) \begin{aligned} L(x_i;\mu) & = \prod_{i=1}^n f(x_i;\mu)\\ & = ({\sqrt{2 \pi} \sigma})^{-n} * \exp \left( -\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \right) \end{aligned} L(xi;μ)=i=1nf(xi;μ)=(2π σ)nexp(2σ21i=1n(xiμ)2)
    对数似然函数:
    ln ⁡ L ( x i ; μ ) = − n ln ⁡ ( 2 π σ ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ⇒ ∂ ln ⁡ L ( x i ; μ ) ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 1 σ 2 ( ∑ i = 1 n x i − n μ ) 令 1 σ 2 ( ∑ i = 1 n x i − n μ ) = 0 ⇒ μ ^ = 1 n ∑ i = 1 n x i \begin{aligned} \ln L(x_i;\mu) & = -n \ln ({\sqrt{2 \pi} \sigma}) - \frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln L(x_i;\mu)}{\partial \mu} & = \frac{1}{\sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu)\\ 令 \quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) & = 0 \\ \Rightarrow \quad \hat{\mu} & = \frac{1}{n}\sum\limits_{i=1}^nx_i \end{aligned} lnL(xi;μ)μlnL(xi;μ)σ21(i=1nxinμ)μ^=nln(2π σ)2σ21i=1n(xiμ)2=σ21i=1n(xiμ)=σ21(i=1nxinμ)=0=n1i=1nxi

  • 假设 μ \mu μ的先验分布是 N ( 0 , τ 2 ) \mathcal{N}(0,\tau^2) N(0,τ2),根据样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn写出 μ \mu μ的贝叶斯估计

    先验分布 f ( μ ) = 1 2 π τ exp ⁡ ( − μ 2 2 τ 2 ) i = 1 , 2 , . . . . . , n f(\mu)=\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right) \quad i=1,2,.....,n f(μ)=2π τ1exp(2τ2μ2)i=1,2,.....,n
    P ( μ ∣ x 1 , x 2 , . . . , x n ) = P ( μ , x 1 , x 2 , . . . , x n ) P ( x 1 , x 2 , . . . , x n ) = f ( μ ) ∗ p ( x 1 ∣ μ ) ∗ ⋯ ∗ p ( x n ∣ μ ) ∫ P ( μ , x 1 , x 2 , . . . , x n ) d μ ∝ f ( μ ) ∗ p ( x 1 ∣ μ ) ∗ ⋯ ∗ p ( x n ∣ μ ) = 1 2 π τ exp ⁡ ( − μ 2 2 τ 2 ) ∗ ∏ i = 1 n 1 2 π σ exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) \begin{aligned} P(\mu \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\mu,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu)}{\int P(\mu,x_1,x_2,...,x_n) \mathcal{d} \mu} \\ &\propto f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu) \\ & = \frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \end{aligned} P(μx1,x2,...,xn)=P(x1,x2,...,xn)P(μ,x1,x2,...,xn)=P(μ,x1,x2,...,xn)dμf(μ)p(x1μ)p(xnμ)f(μ)p(x1μ)p(xnμ)=2π τ1exp(2τ2μ2)i=1n2π σ1exp(2σ2(xiμ)2)
    此时 L ( θ ) L(\theta) L(θ)
    L ( θ ) = 1 2 π τ exp ⁡ ( − μ 2 2 τ 2 ) ∗ ∏ i = 1 n 1 2 π σ exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\theta) =\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) L(θ)=2π τ1exp(2τ2μ2)i=1n2π σ1exp(2σ2(xiμ)2)
    对数似然
    ln ⁡ P ( μ ∣ x 1 , x 2 , . . . , x n ) = − ln ⁡ 2 π τ − μ 2 2 τ 2 − n ln ⁡ ( 2 π σ ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ⇒ ∂ ln ⁡ P ( μ ∣ x 1 , x 2 , . . . , x n ) ∂ μ = − μ τ 2 + 1 σ 2 ∑ i = 1 n ( x i − μ ) = 1 σ 2 ( ∑ i = 1 n x i − n μ ) − μ τ 2 令 1 σ 2 ( ∑ i = 1 n x i − n μ ) − μ τ 2 = 0 ⇒ 1 σ 2 ( ∑ i = 1 n x i − n μ ) = μ τ 2 ⇒ μ ^ = τ 2 ∑ i = 1 2 x i σ 2 + n τ 2 = ∑ i = 1 2 x i n + σ 2 τ 2 \begin{aligned} \ln P(\mu \mathcal{|} x_1,x_2,...,x_n) & = -\ln \sqrt{2 \pi} \tau-\frac{\mu^{2}}{2 \tau^{2}} -n \ln ({\sqrt{2 \pi} \sigma})-\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln P(\mu \mathcal{|} x_1,x_2,...,x_n)}{\partial \mu}& = -\frac{\mu}{\tau^2} + \frac{1}{\sigma ^ 2}\sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} \\ 令\quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} & = 0 \\ \Rightarrow \quad \frac{1}{\sigma^{2}}(\sum\limits_{i=1}^nx_i-n\mu) & = \frac{\mu}{\tau^2}\\ \Rightarrow \quad \hat{\mu} & = \frac{\tau^2\sum\limits_{i=1}^2x_i}{\sigma^2+n\tau^2}\\ & = \frac{\sum\limits_{i=1}^2x_i}{n+\frac{\sigma^2}{\tau^2}} \end{aligned} lnP(μx1,x2,...,xn)μlnP(μx1,x2,...,xn)σ21(i=1nxinμ)τ2μσ21(i=1nxinμ)μ^=ln2π τ2τ2μ2nln(2π σ)2σ21i=1n(xiμ)2=τ2μ+σ21i=1n(xiμ)=σ21(i=1nxinμ)τ2μ=0=τ2μ=σ2+nτ2τ2i=12xi=n+τ2σ2i=12xi
    当n较小时候,贝叶斯估计比极大似然估计要准确一些


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值