聚类模型
1、层次聚类
2、原型聚类-K-means
3、模型聚类-GMM
4、EM算法-LDA主题模型
5、密度聚类-DBSCAN
6、图聚类-谱聚类
四、EM算法
一、EM算法
EM算法是一种迭代算法,用于带隐变量的概率模型参数的极大似然估计,是无监督学习中一大类算法求解的算法。EM算法每次迭代由两步组成,E步:假设隐变量和特征变量的联合分布 P ( x , z ; θ ) P(x,z;\theta) P(x,z;θ),求解样本关于隐变量 z z z的概率函数(使Jensen不等式等号成立),M步:在已知样本 ( x , z ) (x,z) (x,z)的联合分布(确定样本特征和类标),采用极大似然估计最大化似然函数求解参数 θ \theta θ。
在讨论EM算法之前,先介绍Jensen inequality(由凸函数性质导出)
假设f是定义在实数上的凸函数,由凸函数的定义有:
f ( λ x ( 1 ) + ( 1 − λ ) x 2 ) ≤ λ f ( x ( 1 ) ) + ( 1 − λ ) f ( x 2 ) f(\lambda x^{(1)}+(1-\lambda)x^{2})\leq \lambda f(x^{(1)})+(1-\lambda) f(x^{2}) f(λx(1)+(1−λ)x2)≤λf(x(1))+(1−λ)f(x2)
严格凸函数则严格大于,凸函数的判定是其二阶可微的话,其Hesse矩阵半正定。对凸函数的性质推广有:
f ( ∑ i = 1 k ( λ i x ( i ) ) ) ≤ ∑ i = 1 m λ i f ( x ( i ) ) s . t . ∑ i = 1 m λ i = 1 , λ i ≥ 0 f(\sum_{i=1}^{k}(\lambda_{i}x^{(i)}))\leq\sum_{i=1}^{m}\lambda_{i} f(x^{(i)})\\ s.t. \sum_{i=1}^{m}\lambda_{i}=1,\lambda_{i}\geq 0 f(i=1∑k(λix(i)))≤i=1∑mλif(x(i))s.t.i=1∑mλi=1,λi≥0
当 λ i \lambda_{i} λi表示 f ( x ( i ) ) , x ( i ) f(x^{(i)}),x^{(i)} f(x(i)),x(i)的概率时,那么有:
f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))\leq E(f(x)) f(E(x))≤E(f(x))
当且仅当: p ( f ( x ) = c ) = 1 p(f(x)=c)=1 p(f(x)=c)=1,即 f ( x ) f(x) f(x)为常数函数,等号成立。
反之,对于凹函数不等式方向相反。
现在来看EM算法,给定训练样本 { x ( 1 ) , x ( 2 ) , . . x ( m ) } \{x^{(1)},x^{(2)},..x^{(m)}\} {
x(1),x(2),..x(m)},引入隐含的类别标签 z ( i ) z^{(i)} z(i),在有监督方法中,最大对数似然函数 L = p ( z ∣ x ; θ ) L=p(z|x;\theta) L=p(z∣x;θ),同样这里最大化对数似然函数的 L = ( x ( i ) ; θ ) L=(x^{(i)}; \theta) L=(x(i);θ)在隐变量 z ( i ) z^{(i)} z(i)的全期望:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ L(\theta)&=\su…
其中 Q i ( z ( i ) ) Q_{i}(z^{(i)}) Qi(z(i))为样本的隐变量 z ( i ) z^{(i)} z(i)的概率分布, ∑ z Q i ( z ( i ) ) = 1 , Q i ( z ( i ) ) ≥ 0 \sum_{z}Q_{i}(z^{(i)})=1,Q_{i}(z^{(i)})\geq0 ∑zQi(z(i))=1,Qi(z(i))≥0。不同 Q ( z ) Q(z) Q(z)选择,会得到EM在不同情况下的模型,比如高斯混合,朴素贝叶斯混,LDA等。
因为 l o g log log函数是一个严格凹函数,由Jessen不等式有:
l o g ( E ( g ( x ) ) ≥ E ( l o g ( g ( x ) ) l o g ( ∑ z ( i ) Q i ( z ( i ) ) P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) ) ≥ ∑ z ( i ) Q i ( z ( i ) ) l o g P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) log(E(g(x))\geq E(log(g(x))\\ log\left( \sum\limits_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}\right) \geq \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} log(E(g(x))≥E(log(g(x))log(z(i)∑Qi(z(i))Qi(z(i))P(x(i),z(i);θ))≥z(i)∑Qi(z(i))logQi(z(i))P(x(i),z(i);θ)
其中 g ( x ) = P ( x ( i ) , z ( i ) ∣ θ ) Q i ( z ( i ) ) g(x)=\frac{P(x^{(i)},z^{(i)}|\theta)}{Q_i(z^{(i)})} g(x)=Qi(z(i))P(x(i),z(i)∣θ),因此当且仅当, g ( x ) = c g(x)=c g(x)=c,等号成立。
因为 ∑ z Q i ( z ( i ) ) = 1 , Q i ( z ( i ) ) ≥ 0 \sum_{z}Q_{i}(z^{(i)})=1,Q_{i}(z^{(i)})\geq0 ∑zQi(z(i))=1,Qi(z(i))≥0,所以 Q i ( z ( i ) ) Q_{i}(z^{(i)}) Qi(z