机器学习之概率分布3

最新推荐文章于 2022-07-04 09:27:17 发布

wangyingowen

最新推荐文章于 2022-07-04 09:27:17 发布

阅读量375

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wangyingowen/article/details/78625379

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习-概率分布-高斯分布

接下来介绍最常用的高斯分布，对于一元变量 $x$ ，其高斯分布形式为：

N (x | μ, σ 2) = 1 ( 2 π σ 2 ) 1 / 2 exp {- ( x - μ ) 2 2 σ 2}

$\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$
其中，

μ $\mu$ 表示均值，

σ2 $\sigma^2$ 表示方差。

对于 $D$ 维变量 $\mathbf{x}$ ，高斯分布的形式为：

N (x | u, Σ) = 1 ( 2 π ) D / 2 | Σ | 1 / 2 exp {- 1 2 (x - u) T Σ - 1 (x - u)}

$\mathcal{N}(\mathbf{x}|\mathbf{u},\Sigma)=\frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\mathbf{u})^T\Sigma^{-1}(\mathbf{x}-\mathbf{u})\right\}$

高斯分布的参数估计同样也是采用最大似然估计的方法。设有 $N$ 个样本服从该高斯分布 $\mathcal{D}=\left\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_N\right\}$ 。那么对数似然函数为：

ln p (D | u, Σ) = - N D 2 ln 2 π - N 2 ln | Σ | - 1 2 \sum n = 1 N (x n - u) T Σ - 1 (x n - u)

$\ln p(\mathcal{D}|\mathbf{u},\Sigma)=-\frac{ND}{2}\ln2\pi-\frac{N}{2}\ln|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\mathbf{x}_n-\mathbf{u})^T\Sigma^{-1}(\mathbf{x}_n-\mathbf{u})$ 该对数函数对

u $\mathbf{u}$ 求导数并令其为0，可得：

0 u = = Σ - 1 \sum n = 1 N (x n - u) 1 N \sum n = 1 N x n

$\begin{eqnarray} 0&=&\Sigma^{-1}\sum_{n=1}^N(\mathbf{x}_n-\mathbf{u})\\ \mathbf{u}&=&\frac{1}{N}\sum_{n=1}^N\mathbf{x}_n \end{eqnarray}$
求

Σ $\Sigma$ 的过程涉及到矩阵微分生成 1。这里实际上是对

Σ−1 $\Sigma^{-1}$ 求导

\partial \partial Σ - 1 ln | Σ | = - \partial \partial Σ - 1 ln | Σ - 1 | = - Σ T = - Σ (x n - u) T Σ - 1 (x n - u) = T r ((x n - u) (x n - u) T Σ - 1) \partial \partial Σ - 1 T r ((x n - u) (x n - u) T Σ - 1) = (x n - u) (x n - u) T

$\begin{eqnarray*} \frac{\partial}{\partial\Sigma^{-1}}\ln|\Sigma|=-\frac{\partial}{\partial\Sigma^{-1}}\ln|\Sigma^{-1}|=-\Sigma^T=-\Sigma\\ (\mathbf{x}_n-\mathbf{u})^T\Sigma^{-1}(\mathbf{x}_n-\mathbf{u})=\mathrm{Tr}\Big((\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T\Sigma^{-1}\Big)\\ \frac{\partial}{\partial\Sigma^{-1}}\mathrm{Tr}\Big((\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T\Sigma^{-1}\Big)=(\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T \end{eqnarray*}$
因此，

\partial \partial Σ - 1 ln p (D | u, Σ) = N 2 Σ - \sum n = 1 N (x n - u) (x n - u) T = 0 Σ = 1 N \sum n = 1 N (x n - u) (x n - u) T

$\begin{eqnarray*}\frac{\partial}{\partial\Sigma^{-1}}\ln p(\mathcal{D}|\mathbf{u},\Sigma)=\frac{N}{2}\Sigma-\sum_{n=1}^N(\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T=0\\ \Sigma=\frac{1}{N}\sum_{n=1}^N(\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T \end{eqnarray*}$
因此，高斯分布的最大似然估计为：

u Σ = = 1 N \sum n = 1 N x n 1 N \sum n = 1 N (x n - u) (x n - u) T

$\begin{eqnarray} \mathbf{u}&=&\frac{1}{N}\sum_{n=1}^N\mathbf{x}_n\\ \Sigma&=&\frac{1}{N}\sum_{n=1}^N(\mathbf{x}_n-\mathbf{u})(\mathbf{x}_n-\mathbf{u})^T \end{eqnarray}$
用python来实现上述的参数估计过程，用scipy包中的multivariate_normal分布来生成样本，再根据这些样本估计高斯分布的参数。理论推导有点繁琐，但代码实现还是非常简单。我个人的建议，我们不仅仅要知道How,更要知道Why。理论的推导实际就是在追溯Why的过程。

代码

估计高斯分布的参数：

from scipy.stats import multivariate_normal
import numpy as np
x=multivariate_normal.rvs(mean=[0.3,0.5],cov=[[1,0.5],[0.5,1]],size=10000);#从均值为[0.3,0.5],方差为[[1,0.5],[0.5,1]]的二元高斯分布中生成10000个样本
N,d=x.shape
mu = np.mean(x,axis=0)#求均值
x1=x-np.tile(mu,(N,1))
Sigma = np.matmul(x1.transpose(),x1)/N;
print(mu)
print(Sigma)