机器学习基础专题:高斯分布

本文介绍了高斯分布的基础知识,包括一维和多维情况。讨论了最大似然估计(MLE)和最大后验概率(MAP)在估计参数中的应用,并探讨了高斯分布在处理高维数据时的局限性。同时,详细解释了一维高斯分布下μ和σ的估计,以及多维高斯分布中马氏距离的概念。
摘要由CSDN通过智能技术生成

记号和术语

$X \in R^{N*p} = (x_1, x_2, …, x_N)^T $

x i = ( x i 1 , . . . , x i p ) T x_i = (x_{i1}, ..., x_{ip})^T xi=(xi1,...,xip)T

表示数据共有N个样本,每个样本的维度是p。

iid,即Independent and identically distributed,表示一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。

MLE,即maximum likelihood estimation,最大似然估计,用来估计一个概率模型的参数的一种方法。

MAP,即Maximum a posteriori estimation,最大后验概率,考虑了被估计量的先验概率分布。

马氏距离,即Mahalanobis Distance,是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。

统计与概率

频率派/统计学

p ( x ∣ θ ) p(x|\theta) p(xθ) 中的 θ \theta θ是一个常量。假设iid,观测到数据的N个样本来说的概率是 p ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) ) p(X|\theta) = \prod_{i=1}^N p(x_i|\theta)) p(Xθ)=i=1Np(xiθ))。可以采用MLE逆向求解 θ \theta θ

θ ∗ = a r g m a x θ l o g p ( X ∣ θ ) = a r g m a x θ ∑ i = 1 N l o g p ( x i ∣ θ ) \theta^* = argmax_{\theta} logp(X|\theta) = argmax_{\theta} \sum_{i=1}^N log p(x_i|\theta) θ=argmaxθlogp(Xθ)=argmaxθi=1Nlogp(xiθ)

贝叶斯派/概率学

p ( x ∣ θ ) p(x|\theta) p(xθ) 中的 θ \theta θ是一个变量,服从一个先验分布 p ( θ ) p(\theta) p(θ)。依赖数据集参数的后验概率可以写成

p ( θ ∣ X ) = p ( X ∣ θ ) ∗ p ( θ ) / p ( X ) = p ( X ∣ θ ) ∗ p ( θ ) / ∫ θ [ p ( X ∣ θ ) ∗ p ( θ ) ] d θ p(\theta|X) = p(X|\theta)*p(\theta)/p(X) = p(X|\theta)*p(\theta)/\int_{\theta}[p(X|\theta)*p(\theta)]d\theta p(θX)=p(Xθ)p(θ)/p(X)=p(Xθ)p(θ)/θ[p(Xθ)p(θ)]dθ

可以用MAP求解 θ \theta θ

θ ∗ = a r g m a x θ p ( θ ∣ X ) = a r g m a x θ p ( X ∣ θ ) ∗ p ( θ ) \theta^* = argmax_{\theta} p(\theta|X) = argmax_{\theta} p(X|\theta)*p(\theta) θ=argmaxθp(θX)=argmaxθp(Xθ)p(θ)

高斯分布

在iid的条件下, x ∼ N ( μ , Σ ) x \sim N(\mu, \Sigma) xN(μ,Σ) Σ = σ 2 \Sigma = \sigma^2 Σ=σ2

高斯分布的概率密度函数PDF可以写作 p ( x ∣ μ , Σ ) = 1 / [ ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 ] ∗ e − 0.5 ( x − μ ) T Σ − 1 ( x − μ ) p(x|\mu, \Sigma) = 1/[(2\pi)^{p/2}|\Sigma|^{1/2}] * e^{-0.5(x-\mu)^T \Sigma^{-1}(x-\mu)} p(xμ,Σ)=1/[(2π)p/2Σ1/2]e0.5(xμ)TΣ1(xμ)

缺点

  1. Σ \Sigma Σ p 2 + p 2 \frac {p^2 + p}{2} 2p2+p个参数,对于高维的 x x x计算过于复杂。
  2. 难以处理多个峰值的数据

一维

此时 p p p = 1,
l o g P ( X ∣ θ )

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值