基础算法 --- >EM 模型

本文介绍了EM算法在无法获取完整标注数据时,如何估计不同群体(如男生和女生)的身高分布。通过混合高斯模型,EM算法通过不断迭代优化,更新群体的平均值和方差,从而逼近真实分布。详细阐述了EM算法的E步和M步,以及在混合高斯模型中的计算过程。
摘要由CSDN通过智能技术生成

背景

假设我们需要调查我们学校学生的身高分布。我们先假设学校所有学生的身高服从正态分布 N ( μ , δ 1 2 ) N(\mu, \delta_1^2) N(μ,δ12),但是男女但身高分布是不同的,我们假设他们真实的分布分别为男: N ( μ 1 , δ 1 ) N(\mu_1, \delta_1) N(μ1,δ1)和女: N ( μ 2 , δ 2 2 ) N(\mu_2, \delta_2^2) N(μ2,δ22),现在我们怎么估计求得各自的分布呢?

假设我们不能拿到所有的男女学习身高数据以得到真实的数据分布,我们只能从所以学生中抽样,并且抽样得到的数据,完全没有标注是男是女;那我们怎么分别为男生女生估计出一个分布呢?这里就用到EM算法,即(Expectation Maximization)。

大致去看
该方法是怎样做得的呢?简要来说,它是一种不断循环优化的过程:

  1. 我们首先随机初始化男女身高的平均值和方差,据此求得每一份身高数据是男生,女生的概率分别是多少,两个概率相加是1
  2. 由每份数据是男或女的概率,更新男和女的身高分布,即更新平均值和方差;
  3. 对1,2过程不断重复,直至达到一个稳定的状态(比如更新的平均值和方差前与后相差小于某一个值)。

EM

  • 不完全数据分析
    P ( Y ∣ θ ) P(Y|\theta) P(Yθ)
  • 完全数据分布
    P ( Y , Z ∣ θ ) P(Y,Z|\theta) P(Y,Zθ)
    求解目标最大似然估计,maximun likelihood estimate
    l o g P ( Y , Z ∣ θ ) ) = ∑ i n l o g ∑ z i P ( x i , z i ∣ θ ) > = ∑ i ∑ z i Q ( z i ) l o g P ( x i , z i ∣ θ ) Q ( z i ) logP(Y,Z|\theta))=\sum_i^nlog\sum_{z_i}P(x^i,z^i|\theta)>=\sum_i \sum_{z^i} Q(z^i)log \frac{P(x^i,z^i|\theta)}{Q(z^i)} logP(Y,Zθ))=inlogziP(xi,ziθ)>=iziQ(zi)logQ(zi)P(xi,ziθ)
    Q ( θ , θ i ) = ∑ Z l o g P ( Y , Z ∣ θ ) P ( Z ∣ Y , θ i ) Q(\theta,\theta^i)=\sum_Z logP(Y,Z|\theta)P(Z|Y,\theta^i) Q(θ,θi)=ZlogP(Y,Zθ)P(ZY,θi)

具体而言
https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm

  • 写出完全数据的概率 P ( Y , Z ∣ θ ) P(Y,Z|\theta) P(Y,Zθ),比如隐含量Z为性别男女,变量Y为身高,身高的分布为高斯分布 ( u , δ 2 ) (u,\delta^2) (u,δ2),还有男女的分布 T i T_i Ti

附加知识:

在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布^


EM algorithm
输 入 : 观 测 变 量 数 据 Y , 隐 变 量 数 据 Z , 联 合 分 布 P ( Y , Z ∣ θ ) , 条 件 分 布 P ( Z ∣ Y , θ ) ; 输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|\theta),条件分布P(Z|Y,\theta); Y,Z,P(Y,Zθ),P(ZY,θ);
输出:模型参数 θ \theta θ
(1)选择参数的初值 θ ( 0 ) \theta^(0) θ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值