1 概率密度函数
对于一个连续的概率密度方程, p ( x ) p(x) p(x),满足下列特性:
- 处理a和b两点之间的x满足:
P ( a < x < b ) = ∫ a b p ( x ) d x P(a<x<b) = \int_a^b p(x)dx P(a<x<b)=∫abp(x)dx - 对于所有实数x,其值是非负的
- 概率函数的积分为1,即有:
∫ ∞ ∞ p ( x ) d x = 1 \int_\infty^\infty p(x)dx=1 ∫∞∞p(x)dx=1
扩展到向量 x \bold x x,可以有非负的 p ( x ) p(\bold x) p(x)具有以下性质: - x \bold x x在一个区域 Ω \Omega Ω里的概率为: P = ∫ Ω p ( x ) d x P=\int_\Omega p(\bold x)d{\bold x} P=∫Ωp(x)dx
- 概率方程的积分值为1,即有: ∫ p ( x ) d x = 1 \int p(\bold x)d\bold x=1 ∫p(x)dx=1
2 高斯分布
高斯函数是使用最普遍的概率函数,高斯分布也称为正态分布,其函数为:
p
(
x
)
=
N
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x)=N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
p(x)=N(x∣μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
其中,
μ
\mu
μ是平均数,
σ
2
\sigma^2
σ2是方差,
σ
\sigma
σ是标准偏差
对于D维向量
x
\bold x
x的高斯函数为:
N
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
D
/
2
∣
Σ
∣
D
/
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
N(\bold x|\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}|\Sigma|^{D/2}}\exp\left(-\frac{1}{2}(\bold x-\mu)^T\Sigma^{-1}(\bold x-\mu)\right)
N(x∣μ,Σ)=(2π)D/2∣Σ∣D/21exp(−21(x−μ)TΣ−1(x−μ))
其中
μ
\mu
μ也称为平均向量,
Σ
\Sigma
Σ称为协方差矩阵(正定),
∣
Σ
∣
|\Sigma|
∣Σ∣也称为
Σ
\Sigma
Σ的行列式
3 高斯函数的最大似然估计
给定数据集 X = x 1 , ⋯ , x N \bold X={\bold x_1,\cdots,\bold x_N} X=x1,⋯,xN,其中 x n \bold x_n xn假设为独立地从一个多变量的高斯分布中取出的,我们可以采用最大似然估计来确定密度参数
对数似然函数为:
log
p
(
X
∣
μ
,
Σ
)
=
−
N
D
2
log
(
2
π
)
−
N
2
log
∣
Σ
∣
−
1
2
∑
n
=
1
N
(
x
n
−
u
)
T
Σ
−
1
(
x
n
−
μ
)
\log p(\bold X|\mu,\Sigma)=-\frac{ND}{2}\log(2\pi)-\frac{N}{2}\log|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\bold x_n-u)^T\Sigma^{-1}(\bold x_n-\mu)
logp(X∣μ,Σ)=−2NDlog(2π)−2Nlog∣Σ∣−21n=1∑N(xn−u)TΣ−1(xn−μ)
令上述式子对于均值
μ
\mu
μ的微分等于0,可以得到:
∑
n
=
1
N
Σ
−
1
(
x
n
−
u
)
=
0
\sum_{n=1}^N\Sigma^{-1}(\bold x_n-u)=0
n=1∑NΣ−1(xn−u)=0
因此,
μ
M
L
=
1
N
∑
n
=
1
N
(
x
n
−
μ
M
L
)
(
x
n
−
μ
M
L
)
T
\mu_{ML}=\frac{1}{N}\sum_{n=1}^N(\bold x_n-\mu_{ML})(\bold x_n-\mu_{ML})^T
μML=N1∑n=1N(xn−μML)(xn−μML)T
4 Parzen windows
(1) 密度估计
给定的一系列数量为 n n n的样本 x 1 , ⋅ ⋅ ⋅ , x n \mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n x1,⋅⋅⋅,xn,可以估计密度函数 p ( x ) p(\mathbf{x}) p(x),从而根据任意新样本 x \mathbf{x} x可以得到输出 p ( x ) p(\mathbf{x}) p(x)
大部分未知密度函数估计方法的基本思想都很简单,主要是依赖于样本落在区域
R
R
R的概率
P
P
P,即有
P
=
∫
R
p
(
x
)
d
x
P=\int_R p(\mathbf{x})d\mathbf{x}
P=∫Rp(x)dx
假设区域
R
R
R很小,
P
(
x
)
P(\mathbf{x})
P(x)在区域内波动很小,上式可以写做
P
=
∫
R
p
(
x
)
d
x
≈
p
(
x
)
∫
R
d
x
=
p
(
x
)
V
P=\int_R p(\mathbf{x})d\mathbf{x}\approx p(\mathbf{x})\int_R d\mathbf{x}=p(\mathbf{x})V
P=∫Rp(x)dx≈p(x)∫Rdx=p(x)V,这里
V
V
V是区域
R
R
R的“量”(二维即为面积)
从另一方面看,假设 n n n个样本 x 1 , ⋅ ⋅ ⋅ , x n \mathbf{x}_1, \cdot\cdot\cdot,\mathbf{x}_n x1,⋅⋅⋅,xn都是独立且服从概率密度函数 p ( x ) p(\mathbf{x}) p(x),且 n n n个样本中有 k k k个落在区域 R R R里面,则有 P = k / n P=k/n P=k/n,因此 p ( x ) p(\mathbf{x}) p(x)的估计式为 p ( x ) = k / n V p(\mathbf{x})=\frac{k/n}{V} p(x)=Vk/n
(2)Parzen窗密度估计
考虑 R R R是中心在 x \mathbf{x} x的超立方体(例如二维平面),令 h h h为超立方体的边缘长度,所以对于二维平面有有 V = h 2 V=h^2 V=h2,对于三维立体有 V = h 3 V=h^3 V=h3
引入
ϕ
(
x
i
−
x
h
)
=
{
1
∣
x
i
k
−
x
k
∣
h
<
=
1
/
2
,
k
=
1
,
2
0
o
t
h
e
r
w
i
s
e
\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})=\left\{ \begin{aligned} 1\quad& \frac{|x_{ik}-x_{k}|}{h}<=1/2, k=1,2 \\ 0\quad& otherwise \end{aligned} \right.
ϕ(hxi−x)=⎩⎨⎧10h∣xik−xk∣<=1/2,k=1,2otherwise
Parzen概率密度公式(二维)为
p
(
x
)
=
k
/
n
V
=
1
n
∑
i
=
1
n
1
h
2
ϕ
(
x
i
−
x
h
)
p(\mathbf{x})=\frac{k/n}{V}=\frac{1}{n}\sum_{i=1}^n {\frac{1}{h^2}\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})}
p(x)=Vk/n=n1∑i=1nh21ϕ(hxi−x),
ϕ
(
x
i
−
x
h
)
\phi(\frac{\mathbf{x}_i-\mathbf{x}}{h})
ϕ(hxi−x)即为窗函数
我们归纳这个思想并拓展到其他Parzen窗密度估计法中
例如,如果使用高斯函数,对于一维有:
p
(
x
)
=
1
n
∑
i
=
1
n
1
2
π
σ
exp
(
−
(
x
i
−
x
)
2
2
σ
2
)
p(x)=\frac{1}{n}\sum_{i=1}^{n}{\frac{1}{\sqrt{2\pi\sigma}}\exp(-\frac{(x_i-x)^2}{2\sigma^2})}
p(x)=n1∑i=1n2πσ1exp(−2σ2(xi−x)2),这是对
n
n
n个将数据点作为中心的高斯函数的简单求平均,公式中的
σ
\sigma
σ需要再做确定
例子:
给定一个系列的5个数据点
x
1
=
2
x_1=2
x1=2,
x
2
=
2.5
x_2=2.5
x2=2.5,
x
3
=
3
x_3=3
x3=3,
x
4
=
1
x_4=1
x4=1,
x
5
=
6
x_5=6
x5=6,参数
σ
=
1
\sigma=1
σ=1,中心
x
=
3
x=3
x=3的高斯函数作为窗函数,求出Parzen概率密度估计(pdf)
解答:
1
2
π
exp
(
−
(
x
1
−
x
)
2
2
)
=
1
2
π
exp
(
−
(
2
−
3
)
2
2
)
=
0.2420
\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_1-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2-3)^2}{2})=0.2420
2π1exp(−2(x1−x)2)=2π1exp(−2(2−3)2)=0.2420
1
2
π
exp
(
−
(
x
2
−
x
)
2
2
)
=
1
2
π
exp
(
−
(
2.5
−
3
)
2
2
)
=
0.3521
\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_2-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(2.5-3)^2}{2})=0.3521
2π1exp(−2(x2−x)2)=2π1exp(−2(2.5−3)2)=0.3521
1
2
π
exp
(
−
(
x
3
−
x
)
2
2
)
=
1
2
π
exp
(
−
(
3
−
3
)
2
2
)
=
0.3989
\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_3-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(3-3)^2}{2})=0.3989
2π1exp(−2(x3−x)2)=2π1exp(−2(3−3)2)=0.3989
1
2
π
exp
(
−
(
x
4
−
x
)
2
2
)
=
1
2
π
exp
(
−
(
1
−
3
)
2
2
)
=
0.0540
\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_4-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(1-3)^2}{2})=0.0540
2π1exp(−2(x4−x)2)=2π1exp(−2(1−3)2)=0.0540
1
2
π
exp
(
−
(
x
5
−
x
)
2
2
)
=
1
2
π
exp
(
−
(
6
−
3
)
2
2
)
=
0.0044
\frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_5-x)^2}{2})=\frac{1}{\sqrt{2\pi}}\exp(-\frac{(6-3)^2}{2})=0.0044
2π1exp(−2(x5−x)2)=2π1exp(−2(6−3)2)=0.0044
因此,
p
(
x
=
3
)
=
(
0.2420
+
0.3521
+
0.3989
+
0.0540
+
0.0044
)
/
5
=
0.2103
p(x=3)=(0.2420 + 0.3521 + 0.3989+0.0540 + 0.0044)/5 = 0.2103
p(x=3)=(0.2420+0.3521+0.3989+0.0540+0.0044)/5=0.2103
下面用图形化语言表示Parzen窗,每个数据点密度函数(虚线)对于最终的概率密度函数(实线)有相同的贡献度