k-近邻学习,朴素贝叶斯，期望最大化，最大熵模型算法介绍

k-近邻学习 k-Nearest Neighbor(KNN)

1. 算法描述

k-近邻学习是一种监督的分类回归方法。工作机制：给定测试样本，基于某种距离度量找出训练集中与其最接近的k和训练样本，然后基于这k个“邻居”的信息进行预测。通常，在分类任务中采用“投票法”；在回归任务中采用“平均法”（也可根据距离远近进行“加权”）。**三个基本要素：**k值得选择，距离度量及分类/回归决策规则。“懒惰学习”没有显示的训练过程。

1.1 距离度量

$L_p$ 距离： $L_p(x_i,x_j)=(\sum\limits_{l=1}^n|x_i^l-x_j^l|^p)^{\frac{1}{p}},p\geq1$ ，当 $p=2$ 称为“欧氏距离”(Eucliden distance $L_2$ )，当 $p=1$ 称为“曼哈顿距离”，当 $p=\infty$ 时，它是各个坐标距离的最大值： $L_\infty(x_i,x_j)=\max\limits_l|x_i^l-x_j^l|$
1.2 k值得选择

k值较小，相当于用较小的邻域进行预测，优点是可以学习的近似误差会减小，缺点是学习的估计误差会增大，k值的减小会使模型变复杂，容易过拟合；k值较大，相当于用较大的邻域进行预测，优点是可以减小学习的估计误差，缺点是学习的近似误差会增大。通常采用“交叉验证”来选取最优的k值。

2. 优缺点

优点：

1.简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；

2.可用于数值型数据和离散型数据；

3.训练时间复杂度为O(n)；无数据输入假定；

4.对异常值不敏感

5.KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练

6.计算时间和空间线性于训练集的规模

缺点：

1.计算复杂性高；空间复杂性高；

2.样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

3.KNN每一次分类都会重新进行一次全局运算，计算量太大。

4.最大的缺点是无法给出数据的内在含义。

5.k值大小的选择。

3. kd树

为了提高k近邻搜索的效率，考虑使用特殊的结构存储训练数据，以减少计算距离的次数。

kd树是一种对k维空间中的实例点进行存储以便进行快速检索的树形数据结构，kd树是二叉树，对k维空间的一个划分。

构造kd树：构造根节点，使根节点对应于k维空间包含所有实例点的超矩形区域；通过下面的递归，不断地对k维空间进行切分，生成子节点：在节点上选择一个坐标轴和该坐标轴上的一个切分点（选择中位数作为切分点得到的kd树是平衡点），将当前结点切分为左右子节点（将超矩形区域通过切分点且垂直切分轴的平面切分为两个子区域）；直到两个子节点不能再切分为止。

用kd树的最近邻搜索

在kd树中找出包含目标点 $x$ 的叶节点：从根节点出发，递归地向下访问kd树。若目标点当前维的坐标小于切分点的坐标，则移动到左子节点，否则移动到右子节点，直到子节点为叶子结点为止。
以此叶节点为“当前最近点”。
递归的向上回退，在每个节点进行以下操作：

a) 如果该节点保存的实例点比当前最近点距离目标更近，则以该实例点为“当前最近点”。

b) 当前最近点一定存在于该节点一个子节点对应的区域。检查该子节点的父节点的另一个子节点对应的区域是否有更近的点（具体的，检查另一个子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，可能在另一个子结点对应的区域内存在距离目标更近的点，移动到另一个子结点。接着，递归的进行最近邻搜索。如果不相交，向上回退）。
当回退到根节点时，搜索结束。最后的“当前最近点”为目标点的最近邻点。

如果实例点是随机分布的，kd树搜索的平均计算复杂度是 $O(\log m)$ ，这里m是训练实例数。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

朴素贝叶斯，期望最大化，最大熵模型

1. 贝叶斯分类器

1.1 朴素贝叶斯(naive bayes)

朴素贝叶斯法是基于贝叶斯定理( $P(A|B)=\frac{P(A)P(B|A)}{P(B)}$ )与特征条件独立假设（分类的特征在类确定的条件下都是条件独立的）的分类方法。工作机制：对于给定训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的测试样本，利用贝叶斯定理求出后验概率最大的输出。设输入空间 $\mathcal{X}\subseteq \mathbf{R}^{n}$ 为n维向量的集合，输出空间为类标记集合 $\mathcal{Y}=\{c_1,c_2,\cdots,c_K\}$ 。输入为特征向量 $x\in\mathcal{X}$ ，输出标记为 $y\in\mathcal{Y}$ 。 $X$ 表示输入空间上的随机变量， $Y$ 表示输出空间上的随机变量， $P(X,Y)$ 表示 $X$ 和 $Y$ 的联合概率分布，且训练数据集 $D=\{(x_1,y_1),(x_2,y_3),\cdots,(x_m,y_m)\}$ 由 $P(X,Y)$ 独立分布产生。

1.1.1 朴素贝叶斯算法流程

朴素贝叶斯通过训练数据集学习联合概率分布，具体由先验概率分布： $P(Y=c_k)$ 和条件概率分布： $P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,\cdots,X^m=x^m|Y=c_k)$ ，得到联合概率分布为 $P(X,Y)=P(Y=c_k)\cdot P(X=x|Y=c_k)$ 。此外由条件独立假设有： $P(X=x|Y=c_k)=\prod\limits_{j=1}^nP(X^j=x^j|Y=c_k)$ 。

朴素贝叶斯分类时，对给定的输入 $x$ ，通过学习得到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。后验概率的计算根据贝叶斯定理进行： $P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}=\frac{P(Y=c_k)\prod\limits_{j=1}^nP(X^j=x^j|Y=c_k)}{P(X=x)}$

于是，朴素贝叶斯分类器可表示为： $f(x)=\arg\max\limits_{c_k}P(Y=c_k)\prod\limits_{j=1}^nP(X^j=x^j|Y=c_k)$ 。

1.1.2 后验概率最大化的含义：等价于0-1损失函数时的期望风险最小化，期望风险函数为： $R_{exp}(f)=E[L(Y,f(X))]$ ，期望是对联合概率分布取的，由此取条件期望为： $R_{exp}(f)=E_X\sum\limits_{k=1}^K[L(c_k,f(X))]P(c_k|X)$ ，为使期望风险最小化，只需对 $X=x$ 逐个极小化，由此得： $f(x)=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^KL(c_k,y)P(c_k|X=x)=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^KP(y\neq c_k|X=x)\\\qquad=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^K(1-P(y=c_k|X=x))=\arg\max\limits_{y\in\mathcal{Y}}\sum\limits_{k=1}^KP(y=c_k|X=x)后验概率最大化规则$

1.1.3 朴素贝叶斯法的参数估计：在朴素贝叶斯法中，学习意味着估计先验概率和条件概率，可以应用极大似然估计法估计相应的概率。 $P(Y=c_k)=\frac{\sum\limits_{i=1}^m\mathbb{I}(y_i=c_k)}{m}$ ，设第j维特征 $x^j$ 可能的取值集合为 $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ，条件概率的极大似然估计为： $P(X^j=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^m\mathbb{I}(x_i^j=a_{jl},y_i=c_k)}{\sum\limits_{i=1}^m\mathbb{I}(y_i=c_k)}$ 。

1.1.4 朴素贝叶斯算法流程：

计算先验概率及条件概率： $P(Y=c_k)$ 和 $P(X^j=a_{jl}|Y=c_k)$ ；
对于给定的实例 $x=(x^1,x^2,\cdots,x^n)^T$ ，计算 $P(Y=c_k)\prod\limits_{j=1}^nP(X^j=x^j|Y=c_k)$
确定实例 $x$ 的类： $y=\arg\max\limits_{c_k}P(Y=c_k)\prod\limits_{j=1}^nP(X^j=x^j|Y=c_k) $ 。

1.1.5 贝叶斯估计：用极大似然估计可能会出现所要估计的概率值为0的情况，会影响到后验概率的计算结果模式分类产生偏差。解决这一问题的方法是采用贝叶斯估计。条件概率的贝叶斯估计为： $P_\lambda(X^j=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^m\mathbb{I}(x_i^j=a_{jl},y_i=c_k)+\lambda}{\sum\limits_{i=1}^m\mathbb{I}(y_i=c_k)+\lambda}$ 常取 $\lambda=1$ 称为拉普拉斯平滑。先验概率的贝叶斯估计为： $P(Y=c_k)=\frac{\sum\limits_{i=1}^m\mathbb{I}(y_i=c_k)+\lambda}{m+K\lambda}$ 。

1.1.6 朴素贝叶斯算法的优缺点

优点：

1.生成式模型，通过计算概率来进行分类，可以用来处理多分类问题，

2.对小规模的数据表现很好，适合增量式训练，所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

缺点：

1.对输入数据的表达形式很敏感，

2.由于朴素贝叶斯的“朴素”特点（特征条件独立），所以会带来一些准确率上的损失。

3.需要计算先验概率，分类决策存在错误率。

4.由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。

2 半朴素贝叶斯分类器

基本思想：适当地考虑一些特征间的相互依赖信息，从而不需要进行完全联合概率计算，又不至于彻底忽略了比较强的特征依赖关系。“独依赖估计(One-Dependent Estimator,简称ODE)”：所谓“独依赖”就是假设每个特征在类别之外最多仅依赖于一个其他特征。比如，SPODE(Super-parent ODE)：假设所有特征都依赖于同一个特征，称为“超父”，然后通过交叉验证等模型选择方法确定超父特征。TAN(Tree Augment naive Bayes)：在最大带权生成树算法的基础上，通过条件互信息保留强相关特征之间的依赖性。AODE(Average ODE)：基于集成学习机制的独依赖分类器，AODE尝试将每个特征作为超父构建SPODE，然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果。考虑高阶依赖（对多个特征依赖），将ODE扩展到kODE。

3 贝叶斯网

贝叶斯网(Bayesian network)亦称“信念网”(belief network)，它借助有向无环图来刻画特征间的依赖关系，并使用条件概率表(Conditional Probability Table,DPT)来描述特征的联合概率分布。具体来说，一个贝叶斯网B由结构G和参数 $\Theta$ 两部分组成， $B=<G,\Theta>$ ，网络结构G是一个有向无环图，其每个节点对应一个特征，若两个特征间存在直接依赖关系，则它们由一条边连接起来；参数 $\Theta$ 定量描述依赖关系，假设特征 $x$ 在G中的父节点集为 $\pi_i$ ，则 $\Theta$ 包含了每个特征的条件概率表 $\theta_{x^j|\pi^j}=P_B(x^j|\pi^j)$ 。

3.1 结构

给定父节点集，贝叶斯网假设每个特征与它的非后裔特征独立，于是 $B=<G,\Theta>$ 将特征 $x^1,x^2,\cdots,x^n$ 的联合概率分布定义为： $P_B(x^1,x^2,\cdots,x^n)=\prod\limits_{j=1}^nP_B(x^j|\pi^j)=\prod\limits_{j=1}^n\theta_{x^j|\pi^j}$ ，三种典型的依赖关系结构如图所示：

这里写图片描述

在“同父”结构中，给定父节点x的取值，则y和z条件独立；在“顺序”结构中，给定节点x的取值，则y和z条件独立；在“V型”结构中，给定x的取值，则y和z必不独立，但若x的取值完全未知，y和z相互独立，称为“边际独立性”。可使用“有向分离”分析有向图中变量间的条件独立性。

3.2 学习

若网络结构已知，则贝叶斯网的学习过程相对简单，只需对训练样本“计数”，估计出每个节点的条件概率表。“评价搜索”：根据训练数据集来找出结构最“恰当”的贝叶斯网的常用方法。具体来说，我们先定义一个评分函数，以此来评价贝叶斯网与训练数据的契合程度，然后基于这个评分函数来寻找结构最优的贝叶斯网。常用的评分函数是基于信息论准则，该类准则将学习问题看作一个数据压缩任务，学习目标是找到一个能以最短编码长度描述训练数据的模型，编码的长度包括描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度，“最小描述长度”准则。

给定训练集 $D=\{x_1，x_2,\cdots,x_m\}$ ，贝叶斯网 $B=<G,\Theta>$ 在 $D$ 上的评分函数可写为： $s(B|D)=f(\theta)|B|-LL(B|D)$ $|B|$ 是贝叶斯网的参数个数； $f(\theta)$ 表示描述每个参数 $\theta$ 所需的字节数； $LL(B|D)=\sum\limits_{i=1}^m\log P_B(x_i)=\sum\limits_{i=1}^m\prod\limits_{j=1}^n\log\theta_{x_i^j|\pi^j_i}$ 是贝叶斯网的对数似然，则上式函数第一项是计算编码贝叶斯网所需的字节数，第二项是计算B所对应的概率分布 $P_B$ 描述训练集所需的字节数。若 $f(\theta)=1$ 得到AIC评分函数；若 $f(\theta)=\frac{1}{2}\log m$ 得到BIC评分函数；若 $f(\theta)=0$ 则退化到极大似然估计任务。

若贝叶斯网 $B=<G,\Theta>$ 的网络结构固定，则评分函数第一项为常数，最小化 $s(B|D)$ 等价于参数 $\Theta$ 的极大似然估计，由公式可知参数 $\theta_{x^j|\pi^j}$ 能直接在训练数据上通过经验估计获得： $\theta_{x^j|\pi^j}=\hat{P}_D(x^j|\pi^j)$ ，其中 $\hat{P}_D$ 是D上的经验分布。因此，为了最小化评分函数，只需对网络结构进行搜索，而候选结构的最优参数可在训练集上得到。但从所有可能的网络结构空间搜索最优网络结构是一个NP难问题，有两种常用的策略能在有限时间求得近似解：第一种是贪心法；第二种是通过给网络结构施加约束来消减搜索空间。

3.3 推断

通过已知变量观测值来推测带查询变量的过程称为“推断”，已知变量观测值称为“证据”。最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率，但这样的“精确推断”已被证明是NP难的；换言之，当网络节点多、连接稠密时，难以进行精确推断，需要借助“近似推断”，通过降低精度要求，在给定时间内求得近似解。在现实应用中，贝叶斯网的近似推断常用吉布斯采样(Gibbs sampling)来完成。

令 $Q=\{Q_1,Q_2,\cdots,Q_m\}$ 表示待查询变量， $E=\{E_1,E_2,\cdots,E_n\}$ 为证据变量，已知其取值为 $e=\{e_1,e_2,\cdots,e_n\}$ 。目标是计算后验概率 $P(Q=q|E=e)$ ，其中 $q=\{q_1,q_2,\cdots,q_m\}$ 是待查询变量的一组取值。吉布斯采样流程：先随机产生一个与证据 $E=e$ 一致的样本 $q^0$ 作为初始点，然后每步从当前样本出发产生下一个样本。具体来说，在第 $t$ 次采样中，算法先假设 $q^t=q^{t-1}$ ，然后对非证据变量诸葛进行采样改变其值，采样概率根据贝叶斯网和其他变量的当前取值(即 $Z=z$ )计算获得。假定经过 $T$ 次采样得到与 $q$ 一致的样本共 $n_q$ 个，则可近似估算出后验概率 $P(Q=q|E=e)\simeq\frac{n_q}{T}$ 。

实质上，吉布斯采样是在贝叶斯网所有变量的联合状态空间与证据 $E=e$ 一致的子空间中进行“随机漫步”。每一步近依赖于前一步的状态，这是一个“马尔科夫链”。在一定条件下，无论从什么状态开始，马尔科夫链第t步的状态在 $t\rightarrow\infty$ 必收敛于一个平稳分布。对于吉布斯采样来说，这个分布恰好就是 $P(Q|E=e)$ 。在T很大时，吉布斯采样相当于根据 $P(Q|E=e)$ 采样，从而可以近似估计后验概率。注意，由于马尔科夫链通常需要很长时间才能趋于平稳分布，所以吉布斯采样算法的收敛速度较慢。此外，若贝叶斯网存在锦缎概率“0”或“1”，则不能保证马尔科夫链存在平稳分布，此时吉布斯采样会给出错误的估计结果。

2. EM 期望最大化算法

EM算法是含有“隐变量”的概率模型参数的极大似然估计法。将观测数据表示为 $X$ ，未观测数据表示为 $Z$ ，则观测数据的似然函数为 $P(X|\theta)=\sum\limits_ZP(Z|\theta)P(X|Z,\theta)$ 。EM迭代算法流程如下：

选择模型参数的初值 $\theta^{(0)}$ ，开始迭代；
E步：记 $\theta^{(t)}$ 为第t次迭代参数 $\theta$ 的估计值，在第 $t+1$ 次迭代的E步，计算 $Q(\theta,\theta^{(t)})=\sum\limits_Z\log P(X,Z|\theta)P(Z|X,\theta^{(t)})$ ；
M步：求使 $Q(\theta,\theta^{(t)})$ 极大化的参数 $\theta$ ，确定第 $t+1$ 次迭代的参数的估计值 $\theta^{(t+1)}=\arg\max\limits_\theta Q(\theta,\theta^{(t)})$ ；
重复E步和M步，直到收敛。

上述过程中的Q函数是关于给定观测数据和当前参数下对未观测数据的条件概率的期望。**注意：**EM算法对初值敏感；给出停止迭代的条件，一般是较小的整数 $\varepsilon_1,\varepsilon_2$ ，若满足 $\Vert\theta^{(t+1)}-\theta^{(t)}\Vert<\varepsilon_1$ 或 $Q(\theta^{(t+1)},\theta^{(t)})-Q(\theta^{(t)},\theta^{(t)})<\varepsilon_2$ 则停止迭代。

**EM算法的收敛性：**1) 设 $P(X|\theta)$ 为观测数据的似然函数， $\theta^{(t)}$ 为EM算法得到的参数估计序列， $P(X|\theta^{(t)})$ 为对应的似然函数序列，则 $P(X|\theta^{(t)})$ 是单调递增的。2) 设 $L(\theta)=\log P(X|\theta)$ 为观测数据的对数似然函数， $\theta^{(t)}$ 为EM算法得到的参数估计序列， $L(\theta^{(t)})$ 为对应的对数似然函数序列。a) 如果 $P(X|\theta)$ 存在上界。则 $L(\theta^{(t)})=\log P(X|\theta^{(t)})$ 收敛到某一值 $L^*$ ；b) 在函数 $Q(\theta,\theta')$ 与 $L(\theta)$ 满足一定条件下，由EM算法得到的参数估计序列的收敛值 $\theta^*$ 是 $L(\theta)$ 的稳定点。

2.1 高斯混合模型

高斯混合模型是指具有 $P(x|\theta)=\sum\limits_{k=1}^K\alpha_k\phi(x|\theta_k)$ 形式的概率分布模型，其中 $\alpha_k$ 是系数： $\alpha_k\geq0,\sum\limits_{k=1}^K\alpha_k=1$ ； $\phi(x|\theta_k)$ 是高斯分布密度， $\theta_k=(\mu_k,\sigma_k^2)$ ; $\phi(x|\theta_k=\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x-\mu)^2}{2\sigma_k^2})$ 称为第k个分模型。

一般混合模型可以由任意概率分布密度代替高斯分布密度。

高斯混合模型参数估计的EM算法

假设观测数据 $x_1,x_2,\cdots,x_m$ 由高斯混合模型产生，我们由EM算法估计高斯混合模型的参数。

第一步：明确隐变量，写出完全数据的对数似然函数

观测数据 $x_i$ 是这样产生的：首先依概率 $\alpha_k$ 选择第k个高斯分布分模型 $\phi(x|\theta_k)$ ；然后依第k个分模型的概率分布 $\phi(x|\theta_k)$ 生成观测数据 $x_i$ 。这时观测数据 $x_i$ 已知，但反映观测数据 $x_i$ 来自第k个分模型的数据是未知的，以隐变量 $\gamma_{ik}$ 表示，其定义如下：

γ i k = {1, 0, 第 j 个 观 测 来 自 第 k 个 分 模 型; 否 则 .

$\gamma_{ik}=\begin{equation} \left\{ \begin{array}{ll} 1, & \hbox{第j个观测来自第k个分模型;} \\ 0, & \hbox{否则.} \end{array} \right. \end{equation}$
则完全数据的似然函数为：

P (x, γ | θ) = = = = \prod i = 1 m P (x i, γ i 1, γ i 2, \dots, γ i K | θ) \prod k = 1 K \prod i = 1 m [α k ϕ (x i | θ k)] γ i k \prod k = 1 K α n k k \prod i = 1 m [ϕ (x i | θ k)] γ i k \prod k = 1 K α n k k \prod i = 1 m [1 2 π - - \sqrt σ k exp (- ( x i - μ k ) 2 2 σ 2 k)] γ i k

$\begin{eqnarray} P(x,\gamma|\theta)&=&\prod\limits_{i=1}^mP(x_i,\gamma_{i1},\gamma_{i2},\cdots,\gamma_{iK}|\theta)\nonumber\\ &=&\prod\limits_{k=1}^K\prod\limits_{i=1}^m[\alpha_k\phi(x_i|\theta_k)]^{\gamma_{ik}}\nonumber\\ &=&\prod\limits_{k=1}^K\alpha_k^{n_k}\prod\limits_{i=1}^m[\phi(x_i|\theta_k)]^{\gamma_{ik}}\nonumber\\ &=&\prod\limits_{k=1}^K\alpha_k^{n_k}\prod\limits_{i=1}^m[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x_i-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{ik}}\nonumber \end{eqnarray}$
式中，

nk=∑i=1mγik,∑k=1Knk=m $n_k=\sum\limits_{i=1}^m\gamma_{ik},\sum\limits_{k=1}^Kn_k=m$ 。那么，完全数据的对数似然为：

log P (x, γ | θ) = \sum k = 1 K {n k log α k + \sum i = 1 m γ i k [log (1 2 π - - \sqrt) - log σ k - 1 2 σ 2 k (x i - μ k)]}

$\log P(x,\gamma|\theta)=\sum_{k=1}^K\big{\{}n_k\log\alpha_k+\sum_{i=1}^m\gamma_{ik}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(x_i-\mu_k)]\big{\}}$
第二步：EM算法的E步：确定Q函数

Q (θ, θ (t))  = = =  E [log P (x, γ | θ) | x, θ (t)] E {\sum k = 1 K {n k log α k + \sum i = 1 m γ i k [log (1 2 π - - \sqrt) - log σ k - 1 2 σ 2 k (x i - μ k)]}}  \sum k = 1 K {{(E γ i k) log α k + \sum i = 1 m (E γ i k) [log (1 2 π - - \sqrt) - log σ k - 1 2 σ 2 k (x i - μ k)]}}

$\begin{eqnarray} Q(\theta,\theta^{(t)}) &=& E[\log P(x,\gamma|\theta)|x,\theta^{(t)}] \nonumber\\ &=& E\Big{\{}\sum_{k=1}^K\big{\{}n_k\log\alpha_k+\sum_{i=1}^m\gamma_{ik}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(x_i-\mu_k)]\big{\}}\Big{\}}\nonumber \\ &=&\sum_{k=1}^K\Big{\{}\big{\{}(E\gamma_{ik})\log\alpha_k+\sum_{i=1}^m(E\gamma_{ik})[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(x_i-\mu_k)]\big{\}}\Big{\}}\nonumber \end{eqnarray}$
需要计算

E(γik|x,θ) $E(\gamma_{ik}|x,\theta)$ ，记为

γ^ik $\hat{\gamma}_{ik}$ (当前模型参数下第i个观测数据来自第k个分模型的概率，称为分模型k对观测数据

xi $x_i$ 的响应度)：

γ^i k = = = = E (γ i k | x, θ) = P (γ i k = 1 | x, θ)  P ( γ i k = 1 , x i | θ ) \sum K k = 1 P ( γ i k = 1 , x i | θ )  P ( x i | γ i k = 1 , θ ) P ( γ i k = 1 | θ ) \sum K k = 1 P ( x i | γ i k = 1 , θ ) P ( γ i k = 1 | θ )  α k ϕ ( x i | θ k ) \sum K k = 1 α k ϕ ( x i | θ k ) 

$\begin{eqnarray} \hat{\gamma}_{ik}&=&E(\gamma_{ik}|x,\theta)=P(\gamma_{ik}=1|x,\theta) \nonumber\\ &=&\frac{P(\gamma_{ik}=1,x_i|\theta) }{\sum_{k=1}^KP(\gamma_{ik}=1,x_i|\theta)} \nonumber\\ &=&\frac{P(x_i|\gamma_{ik}=1,\theta)P(\gamma_{ik}=1|\theta) }{\sum_{k=1}^KP(x_i|\gamma_{ik}=1,\theta)P(\gamma_{ik}=1|\theta)} \nonumber\\ &=& \frac{\alpha_k\phi(x_i|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(x_i|\theta_k)} \nonumber \end{eqnarray}$
将

γ^ik=E(γik|x,θ) $\hat{\gamma}_{ik}=E(\gamma_{ik}|x,\theta)$ 及

nk=∑i=1mEγik $n_k=\sum\limits_{i=1}^mE\gamma_{ik}$ 代入Q函数得：

Q(θ,θ(t))=∑k=1K{nklogαk+∑i=1mγik^[log(12π−−√)−logσk−12σ2k(xi−μk)]}

$Q(\theta,\theta^{(t)})=\sum_{k=1}^K\Big{\{}n_k\log\alpha_k+\sum_{i=1}^m\hat{\gamma_{ik}}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(x_i-\mu_k)]\Big{\}}$
第三步：确定EM算法的M步

计算新一轮迭代的模型参数： $\hat{\mu}_k=\frac{\sum\limits_{i=1}^m\hat{\gamma}_{ik}x_i}{\sum\limits_{i=1}^m\hat{\gamma}_{ik}},\hat{\sigma}_k^2=\frac{\sum\limits_{i=1}^m\hat{\gamma}_{ik}(x_i-\mu_k)^2}{\sum\limits_{i=1}^m\hat{\gamma}_{ik}},\hat{\alpha}_k=\frac{n_k}{m}=\frac{\sum\limits_{i=1}^m\hat{\gamma}_{ik}}{m}$ 。

2.2 EM算法的优缺点

优点

M步仅涉及完全数据极大似然，通产计算比较的简单
收敛是稳定的

缺点

当缺失数据大或者完全数据的对数似然估计比较复杂时，EM算法的收敛速度将很缓慢
EM算法本质上是非凸的，很容易陷入局部最优。
EM算法对初始值敏感

3. 最大熵模型

3.1 最大熵原理

学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

假设离散随机变量X的概率分布是P(X)，则其熵是： $H(P)=-\sum\limits_xP(x)\log P(x)$ ，熵满足不等式： $0\leq H(P)\leq\log|X|$ 式中 $|X|$ 是X的取值个数，当且仅当X的分布式均匀分布时右边的等号成立。

最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。

3.2 最大熵模型的定义

给定训练数据集 $D=\{(x_1,y_1),(x_2,y_3),\cdots,(x_m,y_m)\}$ ，可以确定联合分布 $P(X,Y)$ 的经验分布和边缘分布 $P(X)$ 的经验分布，分别以 $\tilde{P}(X,Y),\tilde{P}(X)$ 表示。具体的， $\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{m},\tilde{P}(X=x)=\frac{v(X=x)}{m}$ ，其中 $v(\cdot)$ 表示出现的频数。用特征函数 $f(x,y)$ 描述输入x和输出y之间的某一个事实（约束条件），是一个二值函数，当x和y满足某一事实时，值为1；否则值为0。

特征函数关于经验分布 $\tilde{P}(X,Y)$ 的期望值E $_\tilde{P}(f)=\sum\limits_{x,y}\tilde{P}(x,y)f(x,y)$ ；特征函数关于模型P(Y|X)与经验分布 $\tilde{P}(X)$ 的期望值 $E_P(f)=\sum\limits_{x,y}\tilde{P}(x)P(y|x)f(x,y)$ ，如果模型能够获取训练数据中的信息，那么就可以假设 $E_\tilde{P}(f)=E_P(f)$ ，我们将它作为模型学习的约束条件。有多少个特征函数对应多少个约束条件。

假定满足所有约束条件的模型集合为 $\mathcal{C}=\{P\in\mathcal{P}|E_\tilde{P}(f_i)=E_P(f_i),i=1,2,\cdots,k\}$ ，定义在条件概率分布 $P(Y|X)$ 上的条件熵为 $H(P)=-\sum\limits_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)$ ，则称模型集合中条件熵最大的模型为最大熵模型。

3.3 最大熵模型的学习

最大熵模型的学习等价于约束最优化问题：

max P \in C s . t . H (P) = - \sum x, y P ~ (x) P (y | x) log P (y | x)  E P (f k) = E P ~ (f k), k = 1, 2, \dots, K  \sum y P (y | x) = 1  

$\begin{eqnarray} &\max\limits_{P\in\mathcal{C}}& H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)\nonumber \\ &s.t.& E_P(f_k)=E_\tilde{P}(f_k),k=1,2,\cdots,K\nonumber \\ && \sum_yP(y|x)=1 \nonumber \end{eqnarray}$
对应的最小化问题为：

min P \in C s . t . - H (P) = \sum x, y P ~ (x) P (y | x) log P (y | x)  E P (f k) - E P ~ (f k) = 0, k = 1, 2, \dots, K  \sum y P (y | x) = 1  

$\begin{eqnarray} &\min\limits_{P\in\mathcal{C}}& -H(P)=\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)\nonumber \\ &s.t.& E_P(f_k)-E_\tilde{P}(f_k)=0,k=1,2,\cdots,K\nonumber \\ && \sum_yP(y|x)=1 \nonumber \end{eqnarray}$

引入拉格朗日乘子 $\beta_0,\beta_1,\cdots,\beta_K$ ，定义拉格朗日涵数 $L(P,\beta)$ :

L (P, β) = = + - H (P) + β 0 (1 - \sum y P (y | x)) + \sum k = 1 K β k (E P ~ (f i) - E P (f i)) \sum x, y P ~ (x) P (y | x) log P (y | x) + β 0 (1 - \sum y P (y | x)) \sum k = 1 K β k (\sum x, y P ~ (x, y) f (x, y) - \sum x, y P ~ (x) P (y | x) f (x, y))

$\begin{eqnarray} L(P,\beta)&=& -H(P)+\beta_0(1-\sum_yP(y|x))+\sum_{k=1}^K\beta_k(E_\tilde{P}(f_i)-E_P(f_i)) \nonumber\\ &=&\sum{x,y}\tilde{P}(x)P(y|x)\log P(y|x)+\beta_0(1-\sum_yP(y|x))\nonumber\\ &+&\sum_{k=1}^K\beta_k(\sum\limits{x,y}\tilde{P}(x,y)f(x,y)-\sum\limits_{x,y}\tilde{P}(x)P(y|x)f(x,y))\nonumber \end{eqnarray}$
将其解记作：

Pβ=argminP∈CL(P,β)=Pβ(y|x) $P_\beta=\arg\min\limits_{P\in\mathcal{C}}L(P,\beta)=P_\beta(y|x)$ 。具体地，求

L(P,β) $L(P,\beta)$ 对

P(y|x) $P(y|x)$ 的偏导数为0，

\partial L ( P , β ) \partial P ( y | x ) = = = \sum x, y P ~ (x) (log P (y | x) + 1) - \sum y β 0 - \sum x, y (P ~ (x) \sum k = 1 K β k f k (x, y)) \sum x, y P ~ (x) (log P (y | x) + 1 - β 0 - \sum k = 1 K β k f k (x, y)) 0

$\begin{eqnarray} \frac{\partial L(P,\beta)}{\partial P(y|x)}&=&\sum_{x,y}\tilde{P}(x)(\log P(y|x)+1)-\sum_y\beta_0-\sum_{x,y}(\tilde{P}(x)\sum_{k=1}^K\beta_kf_k(x,y)) \nonumber\\ &=&\sum_{x,y}\tilde{P}(x)\Big{(}\log P(y|x)+1-\beta_0-\sum_{k=1}^K\beta_kf_k(x,y)\Big{)}\nonumber\\ &=&0\nonumber \end{eqnarray}$
得：

P(y|x)=exp(∑k=1Kβkfk(x,y)+β0−1)=exp(∑k=1Kβkfk(x,y))exp(1−β0) $P(y|x)=\exp(\sum\limits_{k=1}^K\beta_kf_k(x,y)+\beta_0-1)=\frac{\exp(\sum\limits_{k=1}^K\beta_kf_k(x,y))}{\exp(1-\beta_0)}$ ,由

∑yP(y|x)=1 $\sum_yP(y|x)=1$ 得

Pβ(y|x)=1Zβ(x)exp(∑k=1Kβkfk(x,y)) $P_\beta(y|x)=\frac{1}{Z_\beta(x)}\exp(\sum\limits_{k=1}^K\beta_k f_k(x,y))$ ,其中

Zβ(x)=∑yexp(∑k=1Kβkfk(x,y)) $Z_\beta(x)=\sum\limits_y\exp(\sum\limits_{k=1}^K\beta_k f_k(x,y))$ 。当选定合适的特征函数时，最大熵模型可以导出多项逻辑模型，这个很显然。但二者并不等价，最大熵可以选择其他特征函数。

记对偶函数为 $\Psi(\beta)=\min\limits_{P\in\mathcal{C}}L(P,\beta)=L(P_\beta,\beta)$ ，接下来最大化 $\Psi(\beta)$ 得到其解 $\beta^*$ 。则最大熵模型为： $P^*=P_{\beta^*}(y|x)$ 。