机器学习入门算法及其java实现-EM(Expectation Maxium)算法

最新推荐文章于 2021-03-13 01:29:12 发布

fre0sty

最新推荐文章于 2021-03-13 01:29:12 发布

阅读量1.1k

点赞数

分类专栏：机器学习十大算法分类算法文章标签：算法分类机器学习 EM

本文链接：https://blog.csdn.net/fre0sty/article/details/78273858

版权

机器学习十大算法同时被 2 个专栏收录

7 篇文章 3 订阅

订阅专栏

分类算法

5 篇文章 0 订阅

订阅专栏

1、算法基本原理：

EM算法一般用于存在隐变量或潜在变量的概率模型，可以算是一种含有隐的概率模型参数的极大似然估计法；
假设 $\theta$ 为模型的参数，为模型的观测数据， $\gamma$ 模型中存在的隐藏变量，EM算法的是通过最大化观测数据 $logP(Y|\theta)$ 的方法来求出 $\theta$ 的极大似然估计，可以转化为表达式: $\hat{\theta}=arg \max \limits_{\theta}(logP(Y|\theta))$
经过转化，可以将问题转化为最大化 $E(\gamma)$ 的问题，即 $\hat{\theta}=arg \max\limits_{\gamma}(E(\gamma))$ 。

2、算法推导过程：

根据极大似然法的原理，我们的目标是极大化观测数据 $Y$ 关于参数 $\theta$ 的对数似然函数，即: $L (θ) = l o g P (Y | θ) = l o g \sum γ P (Y, γ | θ)$ $L(\theta)=logP(Y|\theta)=log\sum_{\gamma}P(Y,\gamma|\theta)$ $= l o g (\sum λ P (Y | γ, θ) P (Z | θ))$ $=log(\sum_{\lambda}P(Y|\gamma,\theta)P(Z|\theta))$
因为EM算法是通过迭代的办法逐步接近极大 $L(\theta)$ 的，假设在第 $i$ 次迭代后 $\theta^{i}$ ,此我们希望能够使 $L(\theta)-L(\theta^(i))\ge 0$ $L (θ) - L (θ i) = l o g (\sum γ P (Y | γ, θ) P (γ | θ)) - l o g (P (Y | θ i)$ $L(\theta)-L(\theta^{i})=log(\sum_{\gamma}P(Y|\gamma,\theta)P(\gamma|\theta))-log(P(Y|\theta^{i})$ $= l o g (\sum γ P (γ | Y, θ i) P ( Y | γ , θ ) P ( γ | θ ) P ( γ | Y , θ i )) - l o g P (Y | θ i)$ $=log(\sum_{\gamma}P(\gamma|Y,\theta^{i})\frac{P(Y|\gamma,\theta)P(\gamma|\theta)}{P(\gamma|Y,\theta^{i})})-logP(Y|\theta^{i})$ $\geq \sum γ P (γ | Y, θ i) l o g (P ( Y | γ , θ ) P ( γ | θ ) P ( γ | Y , θ i )) - l o g P (Y | θ i)$ $\ge\sum_{\gamma}P(\gamma|Y,\theta^{i})log(\frac{P(Y|\gamma,\theta)P(\gamma|\theta)}{P(\gamma|Y,\theta^{i})})-logP(Y|\theta^{i})$ $= \sum γ P (γ | Y, θ i) l o g (P ( Y | γ , θ ) P ( γ | θ ) P ( γ | Y , θ i ) l o g P ( Y | θ i ))$ $=\sum_{\gamma}P(\gamma|Y,\theta^{i})log(\frac{P(Y|\gamma,\theta)P(\gamma|\theta)}{P(\gamma|Y,\theta^{i})logP(Y|\theta^{i})})$ 令 $B (θ, θ i) = L (θ i) + \sum γ P (γ | Y, θ i) l o g (P ( Y | γ , θ ) P ( γ | θ ) P ( γ | Y , θ i ) l o g P ( Y | θ i ))$ $B(\theta,\theta^{i})=L(\theta^{i})+\sum_{\gamma}P(\gamma|Y,\theta^{i})log(\frac{P(Y|\gamma,\theta)P(\gamma|\theta)}{P(\gamma|Y,\theta^{i})logP(Y|\theta^{i})})$ 则 $L (θ) \geq B (θ, θ i)$ $L(\theta)\ge B(\theta,\theta^{i})$ 即函数 $B(\theta,\theta^{i})$ 是 $L(\theta)$ 的一个下界,并且易知: $L(\theta^{i})\ge B(\theta^{i},\theta^{i})$ ,因此可以使 $B(\theta,\theta^{i})$ 增大的 $\theta$ 也可以使 $L(\theta)$ 增大，为了使 $L(\theta)$ 有尽可能大的增大，选择 $\theta^{i+1}$ 使 $B(\theta,\theta^{i})$ 打到极大，即： $θ (i + 1) = a r g max θ B (θ, θ i)$ $\theta^{(i+1)}=arg\max_{\theta}B(\theta,\theta^{i})$ 上式可以改写为： $θ (i + 1) = a r g max θ (L (θ i) + \sum γ P (γ | Y, θ i) l o g (P ( Y | γ , θ ) P ( γ | θ ) P ( γ | Y , θ i ) l o g P ( Y | θ i )))$ $\theta^{(i+1)}=arg \max_{\theta}(L(\theta^{i})+\sum_{\gamma}P(\gamma|Y,\theta^{i})log(\frac{P(Y|\gamma,\theta)P(\gamma|\theta)}{P(\gamma|Y,\theta^{i})logP(Y|\theta^{i})}))$ $= a r g max θ \sum γ P (γ | Y), θ i l o g (P (Y | γ, θ) P (γ | θ))$ $=arg\max_{\theta}\sum_{\gamma}P(\gamma|Y),\theta^{i}log(P(Y|\gamma,\theta)P(\gamma|\theta))\quad\quad\quad\quad$ $= a r g max θ \sum γ P (γ | Y, θ i) l o g (P (Y, γ | θ))$ $=arg \max_{\theta}\sum_{\gamma}P(\gamma|Y,\theta^{i})log(P(Y,\gamma|\theta))\quad\quad\quad\quad\quad\quad\quad$ $= a r g max θ Q (θ, θ i)$ $=arg\max_{\theta}Q(\theta,\theta^{i})\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$ 3、EM算法收敛性证明： $\quad\quad$ 根据对数函数函数性质：若 $P(Y|\theta^{i})$ 单调递增且收敛到某一值则 $Q(\theta,\theta^{i})$ 收敛。单调性: $P (Y | θ) = P ( Y , γ | θ ) P ( γ | Y , θ )$ $P(Y|\theta)=\frac{P(Y,\gamma|\theta)}{P(\gamma|Y,\theta)}$ $l o g P (Y | θ) = l o g P (Y, γ | θ) - l o g P (γ | Y, θ)$ $logP(Y|\theta)=logP(Y,\gamma|\theta)-logP(\gamma|Y,\theta)$ $Q (θ, θ i) = \sum γ l o g P (Y, γ | θ) P (γ | Y, θ i)$ $Q(\theta,\theta^{i})=\sum_{\gamma}logP(Y,\gamma|\theta)P(\gamma|Y,\theta^{i})$ 令 $H (θ, θ i) = \sum γ l o g P (γ | Y, θ) P (γ | Y, θ i)$ $H(\theta,\theta^{i})=\sum_{\gamma}logP(\gamma|Y,\theta)P(\gamma|Y,\theta^{i})$ 于是对数似然函数可以写成： $l o g P (Y | θ) = Q (θ, θ i) - H (θ, θ i)$ $logP(Y|\theta)=Q(\theta,\theta^{i})-H(\theta,\theta^{i})$ 上式中 $\theta$ 分别取为 $\theta^{i}$ 和 $\theta^{i+1}$ 并相减,有: $l o g P (Y | θ i + 1) - l o g P (Y | θ i)$ $logP(Y|\theta^{i+1})-logP(Y|\theta^{i})$ $= [Q (θ i + 1, θ i) - Q (θ i, θ i)] - [H (θ i + 1, θ i) - H (θ i, θ i)]$ $=[Q(\theta^{i+1},\theta^{i})-Q(\theta^{i},\theta^{i})]-[H(\theta^{i+1},\theta^{i})-H(\theta^{i},\theta^{i})]$ 因为 $\theta^{i+1}$ 使Q(\theta,\theta^{i})达到极大，所以有： $Q (θ i + 1, θ i) - Q (θ i, θ i) \geq 0$ $Q(\theta^{i+1},\theta^{i})-Q(\theta^{i},\theta^{i})\ge0$ 其第2项，可以推导得出： $H (θ i + 1, θ i) - H (θ i, θ i)$ $H(\theta^{i+1},\theta^{i})-H(\theta^{i},\theta^{i})$ $= \sum γ (l o g p ( γ | Y , θ i + 1 ) P ( γ | Y , θ i )) P (γ | Y, θ i)$ $=\sum_{\gamma}(log\frac{p(\gamma|Y,\theta^{i+1})}{P(\gamma|Y,\theta^{i})})P(\gamma|Y,\theta^{i})$ $\leq l o g (\sum γ P ( γ | Y , θ i + 1 ) P ( γ | Y , θ i ) P (γ | Y, θ i))$ $\le log(\sum_{\gamma}\frac{P(\gamma|Y,\theta^{i+1})}{P(\gamma|Y,\theta^{i})}P(\gamma|Y,\theta^{i}))$ $= l o g (P (γ | Y, θ i + 1)) = 0$ $=log(P(\gamma|Y,\theta^{i+1}))=0$ 又因为 $P(Y|\theta^{i})$ 有界，所以 $L(\theta^{i})=log(P(Y|\theta^{i}))$ 收敛到某一值 $L^{*}$ 。

4、算法步骤：

选择参数的初值 $\theta^{0}$ ，开始迭代；
E步：记 $\theta^{i}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i$ 次迭代的E步，计算: $Q (θ, θ i) = E γ [l o g P (Y, γ | θ) | Y, θ]$ $Q(\theta,\theta^{i})=E_{\gamma}[logP(Y,\gamma|\theta)|Y,\theta]$ $= \sum γ l o g (P (Y, γ | θ) P (γ | Y, θ i))$ $=\sum_{\gamma}log(P(Y,\gamma|\theta)P(\gamma|Y,\theta^{i}))$
M步：求使 $Q(\theta,\theta^{i})$ 极大化的 $\theta$ ,确定第 $i+1$ 次迭代的参数的估计值 $\theta^{i+1}$ $θ i + 1 = a r g max θ Q (θ, θ i)$ $\theta^{i+1}=arg\max_{\theta}Q(\theta,\theta^{i})$
-重复第E步和第M步，直到对于较小的正数 $\xi_{1}$ ， $\xi_{2}$ ，若满足 : $| | θ i + 1 - θ i | | \leq ξ q$ $||\theta^{i+1}-\theta^{i}||\le\xi_{q}$ 或 $| | Q (θ i + 1, θ i) - Q (θ i, θ i) | | \leq ξ 2$ $||Q(\theta^{i+1},\theta^{i})-Q(\theta^{i},\theta^{i})||\le \xi_{2}$ 则停止迭代。

package binorandom;

public class binomain {

    public static void main(String[] args) {
        int[] b=new int[1000];
        for (int i=0;i<1000;i++){
        b[i]=binorandom.getBinomial(1, 0.4);
        }
        int[] a=new int[1000];
        for ( int i=0;i<999;i++){
            if (b[i]==1){
                a[i]=binorandom.getBinomial(1,0.5);
            }
            if(b[i]==0){
                a[i]=binorandom.getBinomial(1,0.6);
            }
            System.out.print(a[i]+" ");
        }
        System.out.print(a[999]);
    }

}


package binorandom;

public class binorandom {
    public static int getBinomial(int n, double p) {
         int x = 0;
         for(int i = 0; i < n; i++) {
         if(Math.random() < p)
          x++;
         }
         return x;
        }
}


//生成数据集合

package EMpackage;
import java.util.Scanner;
public class EMmain {
    public static void main(String[] args){
        System.out.println("请输入观测值个数");
        Scanner input=new Scanner(System.in);
        int datanumber=input.nextInt();
        System.out.println("请输入观测值(0或者1）：");
        Scanner input1=new Scanner(System.in);
        int[] obdata=new int[datanumber];
        for(int i=0; i<datanumber;i++){ 
        obdata[i]=input1.nextInt();
        }
        System.out.println("您输入的是："+" ");
        for (int b=0;b<datanumber-1;b++){
            System.out.print(obdata[b]+" ");
        }
        System.out.println(obdata[datanumber-1]);
        double[] original=new double[3];
        original=ori.original();
        double eq=ori.eq();
        System.out.println("初始条件为："+" "+original[0]+" "+original[1]+" "+original[2]);
        System.out.println("停止条件为："+" "+eq);
        input1.close();
        input.close();
        double[] original1=new double[3];
        original1=EM.original1(original, obdata, datanumber);   
        int x=0;
        while (euclid(minus(original1,original))>eq){
        original=original1;
        original1=EM.original1(original,obdata,datanumber);
        x=x+1;
        }
        System.out.println("pi="+original1[0]+"\n"+"p="+original1[1]+"\n"+"q="+original1[2]+"\n"+x);
    }

private static double euclid(double[] x) {
    double sum=0;
    for (int i=0;i<3;i++){
        sum=sum+Math.pow(x[i], 2);
    }
    double euclid=Math.sqrt(sum);
    return euclid;
}

private static double[] minus(double[] x,double[] y) {
    double[] temp=new double[3];
    for (int i=0;i<3;i++){
        temp[i]=x[i]-y[i];
    }
    return temp;
  }
}


package EMpackage;
public class EM {
    public static double[] original1(double[] original,int[] obdata,int datanumber){
        double[] ybl=new double[datanumber];
        double[] uybl=new double[datanumber];
        double[] l=new double[datanumber];
        double datanumber1=datanumber;
        for (int i=0;i<datanumber;i++){
            ybl[i]=(original[0]*Math.pow(original[1],obdata[i] )*Math.pow(1-original[1],1-obdata[i] ))/(original[0]*Math.pow(original[1],obdata[i])*Math.pow((1-original[1]),(1-obdata[i]))+(1-original[0])*Math.pow(original[2],obdata[i])*Math.pow((1-original[2]),(1-obdata[i])));
            uybl[i]=obdata[i]*(original[0]*Math.pow(original[1],obdata[i] )*Math.pow(1-original[1],1-obdata[i] ))/(original[0]*Math.pow(original[1],obdata[i])*Math.pow((1-original[1]),(1-obdata[i]))+(1-original[0])*Math.pow(original[2],obdata[i])*Math.pow((1-original[2]),(1-obdata[i])));
            l[i]=1;
        }
        double[] original1=new double[3];
        original1[0]=(1/datanumber1)*sum(ybl,datanumber);
        original1[1]=(sum(uybl,datanumber)/sum(ybl,datanumber));
        original1[2]=(sum(ybl,datanumber)-sum(uybl,datanumber))/(sum(l,datanumber)-sum(ybl,datanumber));
        return original1;   
    }

    private static double sum(double[] ybl,int datanumber) {
        double sum=0;
        for (int i=0;i<datanumber;i++){
            sum=sum+ybl[i];
        }
        return sum;
    }
}


package EMpackage;

import java.util.Scanner;

public class ori{ 
    public static double[] original(){
        System.out.println("请输入初始条件条件："+" ");

    Scanner input=new Scanner(System.in);
    double original[]=new double[3];
    for(int d=0; d<3;d++){ 
        original[d]=input.nextDouble();
        }
    return original;
    }
    public static double eq(){
        System.out.println("请输入停止条件："+" ");
        Scanner input=new Scanner(System.in);
        double eq=input.nextDouble();
        return eq;
    }
 }
//EM算法主程序

实验结果及实例分析
这里写图片描述
多次运算结果对比：
原始系数pi,p,q(0.4、0.5、0.6)：

初始迭代系数	（0.5、0.5、0.5）	(0.4、0.4、0.4)	（0.4、0.4、0.5）	（0.5、0.4、0.6）	（0.4、0.5、0.4）	（0.5、0.4、0.5）	（0.5、0.6、0.4)
运算结果	（0.5、0.73、0.32）	（0.54、0.84、0.19）	（0.55、0.84、0.19）	（0.56、0.77、0.29）	（0.56、0.85、0.19）	（0.56、0.77、0.30）	（0.56、0.76、0.30）

原始系数pi,p,q(0.5、0.5、0.5)：

初始迭代系数	（0.4、0.4、0.4）	(0.3、0.4、0.4)	（0.4、0.4、0.5）	（0.4、0.4、0.6）	（0.4、0.5、0.4）	（0.5、0.4、0.3）	（0.5、0.6、0.4）
运算结果	（0.49、0.7、0.23）	（0.49、0.85、0.14）	（0.5、0.76、0.23）	（0.49、0.75、0.24）	（0.49、0.76、0.23）	（0.49、1.02、-0.02）	（0.5、0.53、0.45）