B站白板推导系列笔记——高斯分布——等概率线椭圆

B站白板推导系列笔记——高斯分布——等概率线椭圆

先上大佬视频地址: 视频传送门

曾经做过机器学习相关实验的同学,可能大家在实验中会发现,生成的二维高斯分布的样本大概是呈现圆形或者椭圆的形状,但我猜大部分人应该没有做过相关证明吧(比如说我orz)。
这篇文章总结了这位大佬的视频,在视频中他推导出了这个结论。

马氏距离

首先先引入马氏距离:马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。

对于一个均值为 μ = ( μ 1 , μ 2 , μ 3 , … , μ p ) T \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T} μ=(μ1,μ2,μ3,,μp)T,协方差矩阵为 Σ \Sigma Σ 的多变量向量 x = ( x 1 , x 2 , x 3 , … , x p ) T x=(x_{1},x_{2},x_{3},\dots ,x_{p})^{T} x=(x1,x2,x3,,xp)T ,其马氏距离为:
D M ( x ) = ( x − μ ) T Σ − 1 ( x − μ ) D_{M}(x) = (x-\mu)^{T}\Sigma^{-1}(x-\mu) DM(x)=(xμ)TΣ1(xμ)
也可以定义为两个服从同一分布并且其协方差矩阵为 Σ \Sigma Σ 的随机变量 x x x y y y 的差异程度
D M ( x ) = ( x − y ) T Σ − 1 ( x − y ) D_{M}(x) = (x-y)^{T}\Sigma^{-1}(x-y) DM(x)=(xy)TΣ1(xy)

关于马氏距离的背景及推导请参考连接:
知乎传送门

高斯分布的表现形式

高维高斯分布表达式如下:
N ( x , μ , Σ ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \begin{aligned} N(\bm{x},\bm{\mu},\bm{\Sigma}) &= \frac{1}{(2\pi)^{\frac{d}{2}}|\bm{\Sigma}|^{\frac{1}{2}}}exp(-\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu})) \end{aligned} N(x,μ,Σ)=(2π)2dΣ211exp(21(xμ)TΣ1(xμ))

我们可以看到,决定这个概率密度表达式由随机变量 x x x 均值 μ \mu μ 和协方差矩阵 Σ \Sigma Σ 决定,其中只有 x x x 是变量,另两个是定值。所以当给定期望和方差时,该密度分布实际上只与 x x x 有关,也就是与 − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) -\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu}) 21(xμ)TΣ1(xμ) 有关,这个形式其实就是之前提到的马氏距离,为了推导方便,忽略前面的-1/2系数,另:
Δ = ( x − μ ) T Σ − 1 ( x − μ ) \Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) Δ=(xμ)TΣ1(xμ)

下一步我们对上面这个式子做一个变形,以便更好分析:

首先对中间的协方差矩阵进行变形:由于 Σ \Sigma Σ 是正定(半正定)矩阵,故一定可以进行特征值分解:
Σ = U Λ U T , U T U = U U T = I , Λ = d i a g ( λ i ) , i = 1 , 2 , . . . , p U = ( u 1 , u 2 , . . . u p ) p × p \Sigma = U\Lambda U^{T}, \quad U^TU = UU^T = I, \quad \Lambda = diag(\lambda_i),i=1,2,...,p \quad U = (u_1,u_2,...u_p)_{p×p} Σ=UΛUT,UTU=UUT=I,Λ=diag(λi),i=1,2,...,pU=(u1,u2,...up)p×p
所以:
Σ = U Λ U T = ( u 1 , u 2 , . . . , u p ) ( λ 1 0 ⋯ 0 0 λ 2 ⋮ ⋮ ⋱ ⋮ 0 ⋯ ⋯ λ p ) ( u 1 T u 2 T ⋮ u p T ) = ∑ i = 1 p u i λ i u i T , \Sigma = U\Lambda U^{T} = (u_1,u_2,...,u_p)\begin{pmatrix} \lambda_1 & 0 &\cdots&0 \\ 0& \lambda_2 & & \vdots\\ \vdots &&\ddots&\vdots\\ 0 & \cdots&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} u_1^T \\ u_2^T\\ \vdots \\ u_p^T\\ \end{pmatrix} = \sum_{i=1}^p u_i\lambda_i u_{i}^T, Σ=UΛUT=(u1,u2,...,up)λ1000λ20λpu1Tu2TupT=i=1puiλiuiT,
所以:
Σ − 1 = ( U Λ U T ) − 1 = ∑ i = 1 p u i 1 λ i u i T (1) \Sigma^{-1} = (U\Lambda U^{T})^{-1} = \sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T \tag1 Σ1=(UΛUT)1=i=1puiλi1uiT(1)
将(1)式代入到我们刚才考察的马氏距离中:
Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ( x − μ ) T ( ∑ i = 1 p u i 1 λ i u i T ) ( x − μ ) = ∑ i = 1 p [ ( x − μ ) T u i 1 λ i u i T ( x − μ ) ] \begin{aligned} \Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) &= (x-\mu)^T(\sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T)(x-\mu) \\ &= \sum_{i=1}^p [(x-\mu)^Tu_i\frac{1}{\lambda_i} u_{i}^T(x-\mu)] \\ \end{aligned} Δ=(xμ)TΣ1(xμ)=(xμ)T(i=1puiλi1uiT)(xμ)=i=1p[(xμ)Tuiλi1uiT(xμ)]
y i = ( x − μ ) T u i y_i = (x-\mu)^T u_i yi=(xμ)Tui ,由维度知, y i y_i yi 是一个数,所以 y i = y i T y_i = y_i^T yi=yiT。所以上式子可继续化为:
Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ∑ i = 1 p y i 1 λ i y i T = ∑ i = 1 p y i 2 λ i (2) \Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) = \sum_{i=1}^p y_i\frac{1}{\lambda_i} y_i^T = \sum_{i=1}^p \frac{y_i^2}{\lambda_i} \tag2 Δ=(xμ)TΣ1(xμ)=i=1pyiλi1yiT=i=1pλiyi2(2)
观察2式,考虑一个特殊情况,当p=2时:
Δ 2 = ∑ i = 1 2 y i 2 λ i = y 1 2 λ 1 + y 2 2 λ 2 (3) \Delta_2 = \sum_{i=1}^2 \frac{y_i^2}{\lambda_i} = \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} \tag3 Δ2=i=12λiyi2=λ1y12+λ2y22(3)
我们令3式等于一个常数c,也就是让这个 Δ \Delta Δ,即马氏距离等于一个常值:
y 1 2 λ 1 + y 2 2 λ 2 = c ⟹ y 1 2 c λ 1 + y 2 2 c λ 2 = 1 \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} = c \Longrightarrow \frac{y_1^2}{c\lambda_1}+\frac{y_2^2}{c\lambda_2} = 1 λ1y12+λ2y22=ccλ1y12+cλ2y22=1
可以看到,当马氏距离一定的时候,动点在 ( y 1 , y 2 ) (y_1,y_2) (y1,y2) 平面下是一个标准的椭圆,并且是以原点为中心,长短半轴和两个维度各自的 λ i \lambda_i λi 有关。当马氏距离不定的时候,也就是我们让c开始变化的时候,我们发现,当c越大时,体现在图形上,这个椭圆越大;体现在马氏距离上,这个距离越大,反应到高斯分布的表达式上,这个概率值越小——这是符合我们对高斯分布的认知的,即离期望值越远,其概率密度越小

而我们对于 y i y_i yi 的定义: y i = ( x − μ ) T u i y_i = (x-\mu)^T u_i yi=(xμ)Tui,可以看到是该点原来的坐标先进行0均值化,然后再在变换(旋转)矩阵 U U U 的变换下,在其 u i u_i ui 向量(轴)上的投影值(以上内容可以参考PCA中的知识,实际上 λ i \lambda_i λi 是变换后新坐标系下每个维度的方差),故从随机变量x到后来的y,实际上只是进行了坐标的变换(仅限于平移和伸缩),故曲线的形状是没有本质上的变化的(仍然是圆或者椭圆,只不过此时不是以原点为中心,而是以原来坐标系下的均值为中心,长短半轴和协方差矩阵有关)
图片出自于b站up主的推导

特殊情况

当协方差矩阵本身就为对角矩阵时(这个时候,每一个样本的个分量相互独立),其特征值矩阵即为自己,故其本身的图形就是一个横平竖直的椭圆,只是中心不为原点。当每个维度的协方差都相等时,该图形就是一个圆,此时称这个高斯分布为各项同性。
在这里插入图片描述

结论

通过以上的推导可知,当马氏距离——也就是高斯分布e脑袋上的那一坨一定时候,随机变量是分布在一个椭圆(严格来说是二维的时候,当更高维的时候,是分布在这样的椭球面或更高维度的椭球面)上,故椭圆(椭球面)是高斯分布的等概率线(面)

  • 14
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: QPainter 是一个在 Qt 框架中用于绘制图形的类。它提供了一些画图函数,可以在一个设备上进行绘图操作,比如绘制线条、矩形、椭圆等。QPainter 通过一系列的函数来控制画笔和画刷的属性,从而实现不同的绘图效果。 电子白板是一种具有电子化功能的白板,主要用于教学、演示以及会议讨论等场合。它可以替代传统的黑板和白板,使得写字、绘图、删除以及保存等操作更加方便。电子白板通常配备有触摸屏、电磁感应笔等设备,可以直接在屏幕上书写,并且可以擦除和编辑书写内容。 毛笔是一种传统的绘画工具,特点是笔触丰满饱满,能够表现出独特的笔法和线条效果。毛笔的笔尖由动物毛发制成,通过沾墨、调水和加墨等技巧,可以画出各种粗细、浓淡、明暗变化的线条。毛笔在中国绘画、书法、水墨等艺术活动中广泛应用。 将这三个元素结合在一起,可以将一个毛笔的绘制过程在电子白板上实现。通过在电子白板上使用 QPaint 进行绘图操作,可以模拟毛笔的笔触和线条特性,实现类似于纸上绘画的效果。利用 QPaint 的灵活性,可以自由选择不同的笔触、线宽和颜色等属性,实现独特的绘画风格和效果。 总之,QPainter 是一个用于绘制图形的类,电子白板是一种具有电子化功能的白板,毛笔是传统的绘画工具。将这三者结合在一起,可以利用 QPaint 在电子白板上模拟毛笔的效果,实现丰富多样的绘画效果。 ### 回答2: QPainter是一种在QT编程中使用的绘图工具,它可以在窗口或其他画布上绘制各种形状、图案和文本。QPainter提供了丰富的绘图函数和方法,如绘制线条、矩形、圆形、多边形等,还可以设置颜色、线宽、填充等属性。利用QPainter,开发者可以根据需要创建各种自定义的绘制效果。 电子白板是一种利用电子技术实现的交互式教育辅助设备,它通常由投影仪、白板和电子笔组成。电子白板具有书写、标注、擦写、保存、打印等功能,可以实现教师和学生的互动,提高教学效果和学习质量。通过电子白板,教师可以在白板上书写、标记教材内容,学生可以参与互动、回答问题,从而促进教学和学习活动的有效进行。 毛笔是一种传统的绘画工具,由毛发制成。毛笔的特点是柔软、富有弹性,可以根据力度和角度的变化产生不同线条的效果。毛笔广泛应用于书法、绘画等艺术领域,它具有丰富的表现力和独特的艺术魅力,被誉为中国独特的文化符号之一。 综上所述,QPainter、电子白板和毛笔都与绘画相关。QPainter是一种编程工具,用于在计算机上进行图形绘制;电子白板是一种教育设备,用于在教学和学习中进行交互和展示;毛笔是一种传统的绘画工具,用于实现纸上绘画的艺术效果。它们各具特点,应用于不同的领域,但都可以用于创造美丽和精彩的图像。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值