introduction
lda原理
一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布,这样利用LDA进行投影后,可以利用极大似然估计计算各个类别投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后,我们可以将它投影,然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算它属于这个类别的概率,最大的概率对应的类别即为预测类别。
model assumption
π
k
\pi_k
πk: class k 的先验概率
∑
i
=
1
k
π
k
=
1
\sum_{i=1}^k\pi_k=1
∑i=1kπk=1
bayes theorem:
p
(
G
=
k
∣
X
=
x
)
=
π
k
f
k
(
x
)
∑
i
=
1
k
π
k
f
k
(
x
)
p(G=k|X=x)=\frac{\pi_kf_k(x)}{\sum_{i=1}^k\pi_kf_k(x)}
p(G=k∣X=x)=∑i=1kπkfk(x)πkfk(x)
f
k
(
x
)
f_k(x)
fk(x)Gauss distribution:
f
k
(
x
)
=
1
(
2
π
)
p
/
2
∣
Σ
k
∣
1
/
2
e
x
p
(
−
1
2
(
x
−
μ
k
)
T
Σ
k
−
1
(
x
−
μ
k
)
)
f_k(x)=\frac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}}exp(-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k))
fk(x)=(2π)p/2∣Σk∣1/21exp(−21(x−μk)TΣk−1(x−μk))
Σ
k
=
Σ
\Sigma_k=\Sigma
Σk=Σ
look at log ratio:
l
o
g
(
p
(
G
=
k
∣
X
=
x
)
p
(
G
=
l
∣
X
=
x
)
)
=
l
o
g
π
k
π
l
−
1
2
(
μ
l
+
μ
k
)
T
Σ
−
1
(
μ
k
−
μ
l
)
+
(
μ
k
−
μ
l
)
Σ
−
1
x
log(\frac{p(G=k|X=x)}{p(G=l|X=x)})=log\frac{\pi_k}{\pi_l}-\frac{1}{2}(\mu_l+\mu_k)^T\Sigma^{-1}(\mu_k-\mu_l)+(\mu_k-\mu_l)\Sigma^{-1}x
log(p(G=l∣X=x)p(G=k∣X=x))=logπlπk−21(μl+μk)TΣ−1(μk−μl)+(μk−μl)Σ−1x
linear discriminant function
δ k ( x ) = x T σ − 1 μ k − 1 2 μ k T Σ − 1 μ k + l o g π k \delta_k(x)=x^T\sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+log\pi_k δk(x)=xTσ−1μk−21μkTΣ−1μk+logπk
parameter estimation
π
^
k
=
N
K
N
\hat \pi_k=\frac{N_K}{N}
π^k=NNK
μ
^
k
=
∑
g
i
=
k
x
i
N
K
\hat \mu_k=\sum_{g_i=k}\frac{x_i}{N_K}
μ^k=∑gi=kNKxi
Σ
^
=
∑
k
=
1
K
∑
g
i
=
k
(
x
i
−
μ
^
k
)
T
(
x
i
−
μ
^
k
)
/
(
N
−
K
)
\hat \Sigma=\sum_{k=1}^K\sum_{g_i=k}(x_i-\hat\mu_k)^T(x_i-\hat\mu_k)/(N-K)
Σ^=∑k=1K∑gi=k(xi−μ^k)T(xi−μ^k)/(N−K)