【机器学习课程】高斯分布

1 概率密度函数

对于一个连续的概率密度方程, p ( x ) p(x) p(x),满足下列特性:

  1. 处理a和b两点之间的x满足:
    P ( a < x < b ) = ∫ a b p ( x ) d x P(a<x<b) = \int_a^b p(x)dx P(a<x<b)=abp(x)dx
  2. 对于所有实数x,其值是非负的
  3. 概率函数的积分为1,即有:
    ∫ ∞ ∞ p ( x ) d x = 1 \int_\infty^\infty p(x)dx=1 p(x)dx=1
    扩展到向量 x \bold x x,可以有非负的 p ( x ) p(\bold x) p(x)具有以下性质:
  4. x \bold x x在一个区域 Ω \Omega Ω里的概率为: P = ∫ Ω p ( x ) d x P=\int_\Omega p(\bold x)d{\bold x} P=Ωp(x)dx
  5. 概率方程的积分值为1,即有: ∫ p ( x ) d x = 1 \int p(\bold x)d\bold x=1 p(x)dx=1

2 高斯分布

高斯函数是使用最普遍的概率函数,高斯分布也称为正态分布,其函数为:
p ( x ) = N ( x ∣ μ , σ 2 ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x)=N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) p(x)=N(xμ,σ2)=2π σ1exp(2σ2(xμ)2)
其中, μ \mu μ是平均数, σ 2 \sigma^2 σ2是方差, σ \sigma σ是标准偏差

在这里插入图片描述
对于D维向量 x \bold x x的高斯函数为:
N ( x ∣ μ , Σ ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ D / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) N(\bold x|\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}|\Sigma|^{D/2}}\exp\left(-\frac{1}{2}(\bold x-\mu)^T\Sigma^{-1}(\bold x-\mu)\right) N(xμ,Σ)=(2π)D/2ΣD/21exp(21(xμ)TΣ1(xμ))
其中 μ \mu μ也称为平均向量, Σ \Sigma Σ称为协方差矩阵(正定), ∣ Σ ∣ |\Sigma| Σ也称为 Σ \Sigma Σ的行列式
在这里插入图片描述

3 高斯函数的最大似然估计

给定数据集 X = x 1 , ⋯   , x N \bold X={\bold x_1,\cdots,\bold x_N} X=x1,,xN,其中 x n \bold x_n xn假设为独立地从一个多变量的高斯分布中取出的,我们可以采用最大似然估计来确定密度参数

对数似然函数为:
log ⁡ p ( X ∣ μ , Σ ) = − N D 2 log ⁡ ( 2 π ) − N 2 log ⁡ ∣ Σ ∣ − 1 2 ∑ n = 1 N ( x n − u ) T Σ − 1 ( x n − μ ) \log p(\bold X|\mu,\Sigma)=-\frac{ND}{2}\log(2\pi)-\frac{N}{2}\log|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\bold x_n-u)^T\Sigma^{-1}(\bold x_n-\mu) logp(Xμ,Σ)=2NDlog(2π)2NlogΣ21n=1N(xnu)TΣ1(xnμ)

令上述式子对于均值 μ \mu μ的微分等于0,可以得到:
∑ n = 1 N Σ − 1 ( x n − u ) = 0 \sum_{n=1}^N\Sigma^{-1}(\bold x_n-u)=0 n=1NΣ1(xnu)=0
因此, μ M L = 1 N ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T \mu_{ML}=\frac{1}{N}\sum_{n=1}^N(\bold x_n-\mu_{ML})(\bold x_n-\mu_{ML})^T μML=N1n=1N(xnμML)(xnμML)T

4 Parzen windows

(1) 密度估计

给定的一系列数量为 n n n的样本 x 1 , ⋅ ⋅ ⋅ , x n \mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n x1,,xn,可以估计密度函数 p ( x ) p(\mathbf{x}) p(x),从而根据任意新样本 x \mathbf{x} x可以得到输出 p ( x ) p(\mathbf{x}) p(x)

大部分未知密度函数估计方法的基本思想都很简单,主要是依赖于样本落在区域 R R R的概率 P P P,即有 P = ∫ R p ( x ) d x P=\int_R p(\mathbf{x})d\mathbf{x} P=Rp(x)dx
假设区域 R R R很小, P ( x ) P(\mathbf{x}) P(x)在区域内波动很小,上式可以写做 P = ∫ R p ( x ) d x ≈ p ( x ) ∫ R d x = p ( x ) V P=\int_R p(\mathbf{x})d\mathbf{x}\approx p(\mathbf{x})\int_R d\mathbf{x}=p(\mathbf{x})V P=Rp(x)dxp(x)Rdx=p(x)V,这里 V V V是区域 R R R的“量”(二维即为面积)

从另一方面看,假设 n n n个样本 x 1 , ⋅ ⋅ ⋅ , x n \mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n x1,,xn都是独立且服从概率密度函数 p ( x ) p(\mathbf{x}) p(x),且 n n n个样本中有 k k k个落在区域 R R R里面,则有 P = k / n P=k/n P=k/n,因此 p ( x ) p(\mathbf{x}) p(x)的估计式为 p ( x ) = k / n V p(\mathbf{x})=\frac{k/n}{V} p(x)=Vk/n

(2)Parzen窗密度估计

考虑 R R R是中心在 x \mathbf{x} x的超立方体(例如二维平面),令 h h h为超立方体的边缘长度,所以对于二维平面有有 V = h 2 V=h^2 V=h2,对于三维立体有 V = h 3 V=h^3 V=h3

Parzen-Window

引入 ϕ ( x i − x h ) = { 1 ∣ x i k − x k ∣ h < = 1 / 2 , k = 1 , 2 0 o t h e r w i s e \phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})=\left\{ \begin{aligned} 1\quad& \frac{|x_{ik}-x_{k}|}{h}<=1/2, k=1,2 \\ 0\quad& otherwise \end{aligned} \right. ϕ(hxix)=10hxikxk<=1/2,k=1,2otherwise
Parzen概率密度公式(二维)为 p ( x ) = k / n V = 1 n ∑ i = 1 n 1 h 2 ϕ ( x i − x h ) p(\mathbf{x})=\frac{k/n}{V}=\frac{1}{n}\sum_{i=1}^n {\frac{1}{h^2}\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})} p(x)=Vk/n=n1i=1nh21ϕ(hxix) ϕ ( x i − x h ) \phi(\frac{\mathbf{x}_i-\mathbf{x}}{h}) ϕ(hxix)即为窗函数
我们归纳这个思想并拓展到其他Parzen窗密度估计法中
例如,如果使用高斯函数,对于一维有: p ( x ) = 1 n ∑ i = 1 n 1 2 π σ exp ⁡ ( − ( x i − x ) 2 2 σ 2 ) p(x)=\frac{1}{n}\sum_{i=1}^{n}{\frac{1}{\sqrt{2\pi\sigma}}\exp(-\frac{(x_i-x)^2}{2\sigma^2})} p(x)=n1i=1n2πσ 1exp(2σ2(xix)2),这是对 n n n个将数据点作为中心的高斯函数的简单求平均,公式中的 σ \sigma σ需要再做确定


例子
给定一个系列的5个数据点 x 1 = 2 x_1=2 x1=2 x 2 = 2.5 x_2=2.5 x2=2.5 x 3 = 3 x_3=3 x3=3 x 4 = 1 x_4=1 x4=1 x 5 = 6 x_5=6 x5=6,参数 σ = 1 \sigma=1 σ=1,中心 x = 3 x=3 x=3的高斯函数作为窗函数,求出Parzen概率密度估计(pdf)
解答
1 2 π exp ⁡ ( − ( x 1 − x ) 2 2 ) = 1 2 π exp ⁡ ( − ( 2 − 3 ) 2 2 ) = 0.2420 \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_1-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2-3)^2}{2})=0.2420 2π 1exp(2(x1x)2)=2π 1exp(2(23)2)=0.2420
1 2 π exp ⁡ ( − ( x 2 − x ) 2 2 ) = 1 2 π exp ⁡ ( − ( 2.5 − 3 ) 2 2 ) = 0.3521 \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_2-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2.5-3)^2}{2})=0.3521 2π 1exp(2(x2x)2)=2π 1exp(2(2.53)2)=0.3521
1 2 π exp ⁡ ( − ( x 3 − x ) 2 2 ) = 1 2 π exp ⁡ ( − ( 3 − 3 ) 2 2 ) = 0.3989 \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_3-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(3-3)^2}{2})=0.3989 2π 1exp(2(x3x)2)=2π 1exp(2(33)2)=0.3989
1 2 π exp ⁡ ( − ( x 4 − x ) 2 2 ) = 1 2 π exp ⁡ ( − ( 1 − 3 ) 2 2 ) = 0.0540 \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_4-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(1-3)^2}{2})=0.0540 2π 1exp(2(x4x)2)=2π 1exp(2(13)2)=0.0540
1 2 π exp ⁡ ( − ( x 5 − x ) 2 2 ) = 1 2 π exp ⁡ ( − ( 6 − 3 ) 2 2 ) = 0.0044 \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_5-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(6-3)^2}{2})=0.0044 2π 1exp(2(x5x)2)=2π 1exp(2(63)2)=0.0044
因此, p ( x = 3 ) = ( 0.2420 + 0.3521 + 0.3989 + 0.0540 + 0.0044 ) / 5 = 0.2103 p(x=3)=(0.2420 + 0.3521 + 0.3989+0.0540 + 0.0044)/5 = 0.2103 p(x=3)=(0.2420+0.3521+0.3989+0.0540+0.0044)/5=0.2103


下面用图形化语言表示Parzen窗,每个数据点密度函数(虚线)对于最终的概率密度函数(实线)有相同的贡献度

lines-of-data-points

line-of-pdf.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值