第二课.多元高斯分布与其几何特征

最新推荐文章于 2022-05-31 00:08:53 发布

tzc_fly

最新推荐文章于 2022-05-31 00:08:53 发布

阅读量1.5k

点赞数 4

分类专栏：随机过程与概率图模型

本文链接：https://blog.csdn.net/qq_40943760/article/details/115263629

版权

随机过程与概率图模型专栏收录该内容

23 篇文章 15 订阅

订阅专栏

多元高斯分布

一元高斯与多元高斯

在第一课的一元高斯分布中，处理的是一组样本 $X=(x_{1},x_{2},...,x_{N})$ ，每个样本都是一个随机变量，可以粗略地认为就是随机的"数值"；对于多元高斯分布，同样也有一组样本 $X$ ，但每个样本不是单值的随机变量，而是多维的随机向量，假设每个样本有 $p$ 维：
$x=[x_{1},x_{2},...,x_{p}]^{T}$
假设有 $N$ 个样本，则这组样本表示为：
fig1
一元高斯分布的样本可以看作多元高斯分布样本在 $p = 1$ 下的情况；

多元高斯分布的参数

和一元高斯分布类似，多元高斯分布的参数包含两个部分：均值，方差；但注意，描述分布均值的 $\mu$ 不再是一个数值，而是一个 $p$ 维向量：
$\mu=[\mu_{1},\mu_{2},...,\mu_{p}]^{T}$
向量 $\mu$ 的每一维 $\mu_{i}$ 反映了样本 $X$ 中第 $i$ 个特征的均值；

反映方差的参数同样不再是一个数值，而是协方差矩阵 $\Sigma$ ，这是一个 $p\times p$ 的矩阵：
fig2
在协方差矩阵中，方阵对角线的值 $\sigma_{ii}$ 表示的是分布中第 $i$ 个特征的方差，非对角线上的值 $\sigma_{ij}$ 表示分布中第 $i$ 个特征和第 $j$ 个特征的协方差，反映两个特征之间的相关性；

特别的，当协方差矩阵是一个对角阵，即非对角线上值为0时，代表该分布中，不同特征之间不存在相关性（这也是PCA白化的目标，回顾：算法栈-PCA主成分分析）；

二元高斯分布

以二元高斯分布为例，设置不同的参数，直观感受参数对样本分布的影响：

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

mean_1 = np.array([0, 0])
conv_1 = np.array([[1, 0],
                 [0, 1]])

mean_2 = np.array([0, -7])
conv_2 = np.array([[4, 0],
                 [0, 0.25]])

mean_3 = np.array([4, 4])
conv_3 = np.array([[4, -3],
                 [-3, 0.25]])

# np.random.normal(loc=0.0:"均值", scale=1.0:"标准差", size=None)用于生成一元高斯分布并采样
# np.random.multivariate_normal根据指定的均值和协方差生成多元高斯分布并采样,size为样本数量
# 本例np.random.multivariate_normal(mean=mean_1, cov=conv_1, size=2000)形状为(2000,2),经过转置用于x_1,y_1解包unpack
x_1, y_1 = np.random.multivariate_normal(mean=mean_1, cov=conv_1, size=2000).T
x_2, y_2 = np.random.multivariate_normal(mean=mean_2, cov=conv_2, size=2000).T
x_3, y_3 = np.random.multivariate_normal(mean=mean_3, cov=conv_3, size=2000).T

plt.plot(x_1, y_1, 'ro', alpha=0.05)
plt.plot(x_2, y_2, 'bo', alpha=0.05)
plt.plot(x_3, y_3, 'go', alpha=0.05)

# gca()获取当前坐标轴,axes.set_xlim()移动坐标轴到指定范围
plt.gca().axes.set_xlim(-10, 10)
plt.gca().axes.set_ylim(-10, 10)

plt.grid()
plt.show()

fig3
以上演示中，分别设置了三组不同的参数：
fig4

红色分布：均值均为0，方差均为1，协方差均为0，因此，整个分布的中心点为 $(0, 0)$ ，两特征彼此不相关，形态为一个标准的正圆；
蓝色分布：第二个特征均值为-7，整个分布的中心点位于 $(0, - 7)$ ，协方差矩阵为对角阵，两特征彼此不相关，即椭圆的长轴和短轴在方向上与 $x$ 轴 $y$ 轴一致，没有倾斜，但第一维特征的方差大于第二维特征的方差，所以分布沿着 $x$ 轴看起来更加分散；
绿色分布：协方差矩阵不再是对角阵，两个特征的协方差为-3，呈现负相关，即椭圆表现为向左倾斜（类比直线 $y = - x$ ）；

多元高斯分布的几何特征

几何特征

基于二元高斯分布的可视化，直观感受到整体呈现椭圆形状，假设 $x$ 是一个 $p$ 维随机向量，服从某个 $p$ 维高斯分布 $\theta=(\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p})$ ，则有概率密度函数：
$p(x|\theta)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$
协方差矩阵可以分解为 $\Sigma=Q\Lambda Q^{T}$ ，其中， $QQ^{T}=I$ ， $Q=[q_{1},...,q_{p}]$ ，其中 $Q$ 为 $(p\times p)$ ，而 $\Lambda$ 为：
fig5
因此有：
fig6
其中，对角阵 $\Lambda^{-1}$ 为：
fig7
因此， $\Sigma^{-1}=\sum_{i=1}^{p}q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}$ ，代入 $(x-\mu)^{T}\Sigma^{-1}(x-\mu)$ 得到：
$(x-\mu)^{T}\Sigma^{-1}(x-\mu)=(x-\mu)^{T}[\sum_{i=1}^{p}q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)=\sum_{i=1}^{p}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)$
进行替换，令 $y_{i}=(x-\mu)^{T}q_{i}$ ，相当于先平移后投影：

让样本 $x$ 整体按照 $\mu$ 平移；
再向单位向量 $q_{i}$ 投影，可以得到， $y_{1}$ 是样本 $x$ 平移后在 $q_{1}$ 方向上的投影长度， $y_{2}$ 是样本 $x$ 平移后在 $q_{2}$ 方向上的投影长度；注意 $q_{1}$ 和 $q_{2}$ 是彼此正交的单位向量；

以 $p = 2$ 为例，可以得到：
$\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)=y_{1}\frac{1}{\lambda_{1}}y_{1}^{T}+y_{2}\frac{1}{\lambda_{2}}y_{2}^{T}=\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}$
当 $\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)$ 固定后，样本对应的二元高斯概率密度就可以得到具体值 $p(x|\theta)=value$ ，即：对于满足 $\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)=c$ 的所有样本，它们出现的概率都一样大；

进一步思考，即对于满足 $\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=c$ 时的所有样本，样本出现的概率一样大；注意到 $\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=c$ 正好是椭圆的方程；

椭圆方程的长轴短轴不再是经典的 $x$ 轴和 $y$ 轴，变成了向量 $q_{1}$ 和 $q_{2}$ ，椭圆在两个轴上的长度分别为 $\sqrt{c\lambda_{1}}$ 和 $\sqrt{c\lambda_{2}}$ ， $y_{1}$ 和 $y_{2}$ 则是 $x o y$ 空间下的样本 $x$ 在 $q_{1}$ 和 $q_{2}$ 上的投影长度，即样本 $x$ 以 $q_{1}$ 和 $q_{2}$ 为坐标系的坐标值；

对于 $\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)$ ，每次固定常数 $c$ 后，相当于以 $q_{1}$ 和 $q_{2}$ 为轴， $\sqrt{c\lambda_{1}}$ 和 $\sqrt{c\lambda_{2}}$ 为轴长，画一个椭圆，这个椭圆上所有点出现的概率都相等；

设想一下，伴随 $c$ 的改变， $\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)$ 取值也在改变，于是椭圆在缩放，无数椭圆堆叠形成一个实心的"椭圆"，而且注意， $\sum_{i=1}^{2}(x-\mu)^{T}[q_{i}\frac{1}{\lambda_{i}}q_{i}^{T}](x-\mu)$ 越大，即椭圆越大，但 $p(x|\theta)$ 的取值反而减小，所以越大的椭圆上，点的出现概率越小；

实例演示

以二元高斯为例，设置以下参数进行演示：
fig8

import numpy as np
import matplotlib.pyplot as plt
from scipy import linalg

mean_1 = np.array([0, 0])
mean_2 = np.array([20, -20])

conv = np.array([[34, 12],
              [12, 41]])

x_1, y_1 = np.random.multivariate_normal(mean=mean_1, cov=conv, size=4000).T
x_2, y_2 = np.random.multivariate_normal(mean=mean_2, cov=conv, size=4000).T

plt.plot(x_1, y_1, 'ro', alpha=0.05)
plt.plot(x_2, y_2, 'bo', alpha=0.05)

plt.gca().axes.set_xlim(-20, 40)
plt.gca().axes.set_ylim(-40, 20)

evalue, evector = linalg.eig(conv)
print(evalue)
print(evector)

plt.grid()
plt.show()

fig9
结果为：

[25.+0.j 50.+0.j]

[[-0.8 -0.6]
 [ 0.6 -0.8]]

蓝色分布为原始的高斯分布，减去均值向量后，整体平移到 $x o y$ 坐标原点，即红色分布；

对协方差矩阵 $\Sigma$ 进行特征值分解得到特征向量 $q_{1}=[-0.8,0.6]^{T}$ 和 $q_{2}=[-0.6,-0.8]^{T}$ ，对应特征值为 $\lambda_{1}=25$ 和 $\lambda_{2}=50$ ；即在平移得到的红色分布上，有无数个以 $0,0]^{T}$ 为中心， $q_{1}$ 和 $q_{2}$ 为轴的同心椭圆，椭圆的长短轴之比为 $\sqrt{50}/\sqrt{25}$ ，对于某个椭圆，其上的点出现概率都相等，而随着椭圆变大，样本出现的概率逐渐降低，即颜色从深变浅。

tzc_fly

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
第二课.多元高斯分布与其几何特征

目录多元高斯分布一元高斯与多元高斯多元高斯分布的参数二元高斯分布多元高斯分布的几何特征几何特征实例演示多元高斯分布一元高斯与多元高斯在第一课的一元高斯分布中，处理的是一组样本X=(x1,x2,...,xN)X=(x_{1},x_{2},...,x_{N})X=(x1,x2,...,xN)，每个样本都是一个随机变量，可以粗略地认为就是随机的"数值"；对于多元高斯分布，同样也有一组样本XXX，但每个样本不是单值的随机变量，而是多维的随机向量，假设每个样本有ppp维：x=[x1,x2,...,xp]
复制链接

扫一扫