一、最大熵模型(MEM)(词性标注,句法分析)
1、首先要区分MEM 和 EM 两个模型;
2、MEM的理想形态为指数形式,如下所示:
其标准形态如下,其中f(x,y)为特征函数:
3、MEM向logistic的转换
4、MEM为一个非常理想的模型,除已知的约束条件外,它将其他情况都视为等可能发生,(就像投一枚硬币,我们猜测其朝上/下的概率均为0.5),从理论角度来讲,其具有很好的泛化能力,但是在实际中,MEM只用于少数的几类任务。
MEM实现算法有GIS,IIS。其中GIS在实际中不用,IIS是在GIS基础上进行改进而得,在实际中可用。
二、CRF(词性标注,命名实体识别NER)
1、CRF公式
CRF模型中有2个重要的部分:特征函数f(x,y)和权重。
以“词性标注”为例,来解析CRF:
在该例中,CRF的特征函数定义如下,f(x,y) = f(i,s,li,li-1),其中i为词在句子中的位置,s为一个句子,li为词的标签,li-1为其前一个词的标签。该特征函数输出的值为{0:false,1:true}。
则对于一个句子s,其可以有很多可能的标注形式,对于某一特定的标注形式 l 来讲,其p(l|s)计算公式如下:
其中,分子为标注 l 的 CRF得分,分母为所有可能的标注形式 的CRF得分。
2、CRF 训练
依然以 词性标注 为例说明,在这个任务中 目标函数为p(l|s),我们的任务即求解权重lambda,使得目标函数尽可能大(特征函数为人为界定)。
求解方式为gradient ascend,具体训练过程如下:
3、通过适当调整CRF的特征函数,我们可以将CRF转为HMM的形式:
4、CRF一个有趣的实例,类似 词性标注
针对微博留言,我们可以设定 特征函数,来标记出 哪些短语 为gift。
三、各类模型之间的转换
四、生成模型 与 判别模型 的区别
生成模型:求解的是联合概率p(x,y)。如:在language model中,通过求解p(w1,w2,w3,…,wn)来获得最优sentence。
判别模型:求解的是条件概率p(y|x)。
举例说明generative model和discriminative model的区别: