概率密度建模-参数化方法-概率密度的形式一定,由数据集确定密度中的参数即可。
局限性–概率模型选的不对,不能够描述数据模态
此时,介绍一下非参数方法–直方图,核方法, K紧邻
1.直方图
直方图–密度估计–每个直方处密度,
n
i
n_i
ni该直方内的样本数,N总样本数,
Δ
\Delta
Δ该直方宽度
p
i
=
n
i
N
Δ
i
p_i=\frac{n_i}{N\Delta_i}
pi=NΔini
缺点:
- 在直方交界处概率密度不连续
- D维变量,每个维度都划分成 M M M维度,将会有 M D M^D MD个箱子。
估计某个特定位置的概率密度,应该考虑位于那个点的某个邻域内的数据点。
某个点处的概率密度–K 邻域内样本数,
N
N
N总样本数,
V
V
V邻域半径:
p
(
x
)
=
K
N
V
p(x)=\frac{K}{NV}
p(x)=NVK
2. 核方法
固定邻域大小,计算邻域内样本数K。
Parzen 窗核函数密度估计(在窗中的才算):
p
(
x
)
=
1
N
∑
n
=
1
N
1
h
D
k
(
x
−
x
n
h
)
p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{h^D}k(\frac{x-x_n}{h})
p(x)=N1n=1∑NhD1k(hx−xn)
高斯核密度估计(所有样本都算):
p
(
x
)
=
1
N
∑
n
=
1
N
1
(
2
π
h
2
)
D
2
exp
−
∣
∣
x
−
x
n
∣
∣
2
2
h
2
p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{(2\pi h^2)^{\frac{D}{2}}}\exp{-\frac{||x-x_n||^2}{2h^2}}
p(x)=N1n=1∑N(2πh2)2D1exp−2h2∣∣x−xn∣∣2
3. K近邻
固定邻域内样本数K,计算包含K个样本邻域体积。
由K近邻方法导出的K-NN 分类器。
数据集
N
k
N_k
Nk个样本属于类别
C
k
C_k
Ck,数据总数为
N
N
N,如果想对数据
x
x
x分类;以x为中心的球体中包含
C
k
C_k
Ck类样本
K
k
K_k
Kk个,x 与每个类别关联的概率:
p
(
x
∣
C
k
)
=
K
k
V
N
k
p(x|C_k)=\frac{K_k}{VN_k}
p(x∣Ck)=VNkKk
类别先验:
p
(
C
k
)
=
N
k
N
p(C_k)=\frac{N_k}{N}
p(Ck)=NNk
x的后验概率:
p
(
c
k
∣
x
)
=
p
(
x
,
C
k
)
p
(
x
)
=
K
k
V
N
k
N
k
N
K
V
N
=
K
k
K
p(c_k|x)=\frac{p(x,C_k)}{p(x)}=\frac{\frac{K_k}{VN_k}\frac{N_k}{N}}{\frac{K}{VN}}=\frac{K_k}{K}
p(ck∣x)=p(x)p(x,Ck)=VNKVNkKkNNk=KKk