机器学习-白板推导系列笔记（二）-数学基础

最新推荐文章于 2021-12-18 15:25:43 发布

及时行樂_

最新推荐文章于 2021-12-18 15:25:43 发布

阅读量1.9k

点赞数 7

分类专栏：哔站机器学习白板推导文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41485273/article/details/111761092

版权

本文详细介绍了机器学习中极大似然估计法在高斯分布参数估计的应用，包括一维和多维高斯分布的估计过程，证明了μ和σ的无偏性和有偏性。此外，探讨了高斯分布等高线为何呈椭圆形的数学原理，并分析了高斯分布的局限性，如参数过多和单个分布拟合能力有限。最后，讲解了如何求解高斯分布的边缘概率和条件概率。

摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频：数学基础_150min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、概述

假设有以下数据：

$X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}_{N \times p}$
其中 $x_{i}\in \mathbb{R}^{p}$ 且 $x_{i}\overset{iid}{\sim }N(\mu ,\Sigma )$
则参数 $\theta =(\mu ,\Sigma )$

二、通过极大似然估计高斯分布的均值和方差

（一）极大似然

$\theta_{MLE}=\underset{\theta }{argmax}P(X|\theta )$

（二）高斯分布

一维高斯分布： $p(x)=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu )^{2}}{2\sigma ^{2}})$
多维高斯分布： $p(x)=\frac{1}{(2\pi )^{D/2}|\Sigma |^{1/2}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma ^{-1}(x-\mu))$

（三）一维高斯分布下的估计

1.关于 $\theta$ 的似然函数

$logP(X|\theta )=log\prod_{i=1}^{N}p(x_{i}|\theta )\\ =\sum_{i=1}^{N}log\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})\\ =\sum_{i=1}^{N}[log\frac{1}{\sqrt{2\pi }}+log\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}]$

2.通过极大似然估计法求解 $\mu _{MLE}$

$\mu _{MLE}=\underset{\mu }{argmax}logP(X|\theta)\\ =\underset{\mu }{argmax}\sum_{i=1}^{N}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}\\ =\underset{\mu }{argmin}\sum_{i=1}^{N}(x_{i}-\mu )^{2}$
对 $\mu$ 求导
$\frac{\partial \sum_{i=1}^{N}(x_{i}-\mu )^{2}}{\partial \mu}=\sum_{i=1}^{N}2(x_{i}-\mu )(-1)=0\\ \Leftrightarrow \sum_{i=1}^{N}(x_{i}-\mu )=0\\ \Leftrightarrow \sum_{i=1}^{N}x_{i}-\underset{N\mu }{\underbrace{\sum_{i=1}^{N}\mu }}=0$
解得 $\mu _{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i}$

3.证明 $\mu _{MLE}$ 是无偏估计

$E[\mu _{MLE}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}] =\frac{1}{N}\sum_{i=1}^{N}\mu =\frac{1}{N}N\mu =\mu$

4.通过极大似然估计法求解 $\sigma _{MLE}$

$\sigma _{MLE}^{2}=\underset{\sigma }{argmax}P(X|\theta )\\ =\underset{\sigma }{argmax}\underset{L}{\underbrace{\sum_{i=1}^{N}(-log\sigma -\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})}}\\ \frac{\partial L}{\partial \sigma}=\sum_{i=1}^{N}[-\frac{1}{\sigma }+(x_{i}-\mu )^{2}\sigma ^{-3}]\\ \Leftrightarrow \sum_{i=1}^{N}[-\sigma ^{2}+(x_{i}-\mu )^{2}]=0\\ \Leftrightarrow -\sum_{i=1}^{N}\sigma ^{2}+\sum_{i=1}^{N}(x_{i}-\mu )^{2}=0\\ \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu )^{2}$
$\mu$ 取 $\mu_{MLE}$ 时， $\sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}$

5.证明 $\sigma _{MLE}^{2}$ 是有偏估计

要证明 $\sigma _{MLE}^{2}$ 是有偏估计就需要判断 $E[\sigma _{MLE}^{2}]\overset{?}{=}\sigma ^{2}$ ，证明如下：

最低0.47元/天解锁文章

及时行樂_

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
4
评论
机器学习-白板推导系列笔记（二）-数学基础

此文章主要是结合哔站shuhuai008大佬的白板推导视频：数学基础_150min一、概述假设有以下数据：X=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)N×pX=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}_{N \times p}X=(x1,x1,⋯,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞N×
复制链接

扫一扫