机器学习-白板推导系列笔记(二)-数学基础

本文详细介绍了机器学习中极大似然估计法在高斯分布参数估计的应用,包括一维和多维高斯分布的估计过程,证明了μ和σ的无偏性和有偏性。此外,探讨了高斯分布等高线为何呈椭圆形的数学原理,并分析了高斯分布的局限性,如参数过多和单个分布拟合能力有限。最后,讲解了如何求解高斯分布的边缘概率和条件概率。
摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频:数学基础_150min

全部笔记的汇总贴:机器学习-白板推导系列笔记

一、概述

假设有以下数据:

X = ( x 1 , x 1 , ⋯   , x N ) T = ( x 1 T x 2 T ⋮ x N T ) N × p X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}_{N \times p} X=(x1,x1,,xN)T=x1Tx2TxNTN×p
其中 x i ∈ R p x_{i}\in \mathbb{R}^{p} xiRp x i ∼ i i d N ( μ , Σ ) x_{i}\overset{iid}{\sim }N(\mu ,\Sigma ) xiiidN(μ,Σ)
则参数 θ = ( μ , Σ ) \theta =(\mu ,\Sigma ) θ=(μ,Σ)

二、通过极大似然估计高斯分布的均值和方差

(一)极大似然

θ M L E = a r g m a x θ P ( X ∣ θ ) \theta_{MLE}=\underset{\theta }{argmax}P(X|\theta ) θMLE=θargmaxP(Xθ)

(二)高斯分布

一维高斯分布: p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu )^{2}}{2\sigma ^{2}}) p(x)=2π σ1exp(2σ2(xμ)2)
多维高斯分布: p ( x ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\frac{1}{(2\pi )^{D/2}|\Sigma |^{1/2}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma ^{-1}(x-\mu)) p(x)=(2π)D/2Σ1/21exp(21(xμ)TΣ1(xμ))

(三)一维高斯分布下的估计

1.关于 θ \theta θ的似然函数

l o g P ( X ∣ θ ) = l o g ∏ i = 1 N p ( x i ∣ θ ) = ∑ i = 1 N l o g 1 2 π σ e x p ( − ( x i − μ ) 2 2 σ 2 ) = ∑ i = 1 N [ l o g 1 2 π + l o g 1 σ − ( x i − μ ) 2 2 σ 2 ] logP(X|\theta )=log\prod_{i=1}^{N}p(x_{i}|\theta )\\ =\sum_{i=1}^{N}log\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})\\ =\sum_{i=1}^{N}[log\frac{1}{\sqrt{2\pi }}+log\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}] logP(Xθ)=logi=1Np(xiθ)=i=1Nlog2π σ1exp(2σ2(xiμ)2)=i=1N[log2π 1+logσ12σ2(xiμ)2]

2.通过极大似然估计法求解 μ M L E \mu _{MLE} μMLE

μ M L E = a r g m a x μ l o g P ( X ∣ θ ) = a r g m a x μ ∑ i = 1 N − ( x i − μ ) 2 2 σ 2 = a r g m i n μ ∑ i = 1 N ( x i − μ ) 2 \mu _{MLE}=\underset{\mu }{argmax}logP(X|\theta)\\ =\underset{\mu }{argmax}\sum_{i=1}^{N}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}\\ =\underset{\mu }{argmin}\sum_{i=1}^{N}(x_{i}-\mu )^{2} μMLE=μargmaxlogP(Xθ)=μargmaxi=1N2σ2(xiμ)2=μargmini=1N(xiμ)2
μ \mu μ求导
∂ ∑ i = 1 N ( x i − μ ) 2 ∂ μ = ∑ i = 1 N 2 ( x i − μ ) ( − 1 ) = 0 ⇔ ∑ i = 1 N ( x i − μ ) = 0 ⇔ ∑ i = 1 N x i − ∑ i = 1 N μ ⏟ N μ = 0 \frac{\partial \sum_{i=1}^{N}(x_{i}-\mu )^{2}}{\partial \mu}=\sum_{i=1}^{N}2(x_{i}-\mu )(-1)=0\\ \Leftrightarrow \sum_{i=1}^{N}(x_{i}-\mu )=0\\ \Leftrightarrow \sum_{i=1}^{N}x_{i}-\underset{N\mu }{\underbrace{\sum_{i=1}^{N}\mu }}=0 μi=1N(xiμ)2=i=1N2(xiμ)(1)=0i=1N(xiμ)=0i=1NxiNμ i=1Nμ=0
解得 μ M L E = 1 N ∑ i = 1 N x i \mu _{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i} μMLE=N1i=1Nxi

3.证明 μ M L E \mu _{MLE} μMLE是无偏估计

E [ μ M L E ] = 1 N ∑ i = 1 N E [ x i ] = 1 N ∑ i = 1 N μ = 1 N N μ = μ E[\mu _{MLE}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}] =\frac{1}{N}\sum_{i=1}^{N}\mu =\frac{1}{N}N\mu =\mu E[μMLE]=N1i=1NE[xi]=N1i=1Nμ=N1Nμ=μ

4.通过极大似然估计法求解 σ M L E \sigma _{MLE} σMLE

σ M L E 2 = a r g m a x σ P ( X ∣ θ ) = a r g m a x σ ∑ i = 1 N ( − l o g σ − ( x i − μ ) 2 2 σ 2 ) ⏟ L ∂ L ∂ σ = ∑ i = 1 N [ − 1 σ + ( x i − μ ) 2 σ − 3 ] ⇔ ∑ i = 1 N [ − σ 2 + ( x i − μ ) 2 ] = 0 ⇔ − ∑ i = 1 N σ 2 + ∑ i = 1 N ( x i − μ ) 2 = 0 σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma _{MLE}^{2}=\underset{\sigma }{argmax}P(X|\theta )\\ =\underset{\sigma }{argmax}\underset{L}{\underbrace{\sum_{i=1}^{N}(-log\sigma -\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})}}\\ \frac{\partial L}{\partial \sigma}=\sum_{i=1}^{N}[-\frac{1}{\sigma }+(x_{i}-\mu )^{2}\sigma ^{-3}]\\ \Leftrightarrow \sum_{i=1}^{N}[-\sigma ^{2}+(x_{i}-\mu )^{2}]=0\\ \Leftrightarrow -\sum_{i=1}^{N}\sigma ^{2}+\sum_{i=1}^{N}(x_{i}-\mu )^{2}=0\\ \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu )^{2} σMLE2=σargmaxP(Xθ)=σargmaxL i=1N(logσ2σ2(xiμ)2)σL=i=1N[σ1+(xiμ)2σ3]i=1N[σ2+(xiμ)2]=0i=1Nσ2+i=1N(xiμ)2=0σMLE2=N1i=1N(xiμ)2
μ \mu μ μ M L E \mu_{MLE} μMLE时, σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2} σMLE2=N1i=1N(xiμMLE)2

5.证明 σ M L E 2 \sigma _{MLE}^{2} σMLE2是有偏估计

要证明 σ M L E 2 \sigma _{MLE}^{2} σMLE2是有偏估计就需要判断 E [ σ M L E 2 ] = ? σ 2 E[\sigma _{MLE}^{2}]\overset{?}{=}\sigma ^{2} E[σMLE2]=?σ2,证明如下:

V a r [ μ M L E ] = V a r [ 1 N ∑ i = 1 N x i ] = 1 N 2 ∑ i = 1 N V a r [ x i ] = 1 N 2 ∑ i =

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值