从分类问题出发，朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场

最新推荐文章于 2022-12-02 11:55:00 发布

hyzhyzhyz12345

最新推荐文章于 2022-12-02 11:55:00 发布

阅读量635

点赞数 1

分类专栏：概率图模型序列标注问题文章标签：机器学习统计模型

本文链接：https://blog.csdn.net/hyzhyzhyz12345/article/details/104110471

版权

概率图模型同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

序列标注问题

1 篇文章 0 订阅

订阅专栏

在统计学习中，有两种模型：概率模型和非概率模型；
软分类：使用的是概率模型，输出不同类对应的概率，最后的分类结果取概率最大的类，如多SVM组合分类；有逻辑回归，朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场等
硬分类：使用的是非概率模型，形式为决策函数，即输入x到输出y的一个映射，且输出唯一，分类结果就是决策函数的决策结果；SVM,LDA,PLA等
对于分类问题，若是将概率引入，变为概率图模型，包括逻辑回归，朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场，今天就说说概率图模型，若有错误，请大佬们指正。

逻辑回归（logistic regression）是一个判别模型，对后验概率P(Y|X)建模。

贝叶斯网络是一个有向概率图模型，又称信念网络(Belief Network)，或有向无环图模型(directed acyclic graphical model);朴素贝叶斯是一个生成模型，对联合概率密度P(X,Y)建模(然后再求P(Y|X)=P(X,Y) / P(X)) = P(X|Y) * P(Y) / P(X)，朴素假设指的是在给定类别Y的情况下，输入之间X（x1,x2,x3,）之间是相互独立，朴素贝叶斯分类器的条件独立性假设太强（比如在标注问题当中，一个句子当中每个字之间是有关系的，不会独立），但是在实际应用中，朴素贝叶斯分类器在很多任务上也能得到很好的结果，并且模型简单，可以有效防止过拟合。
在这里插入图片描述
若是将输入输出变为一个序列形式，则可以变为隐马尔科夫模型，此时隐状态是离散的，若隐状态是线性连续的，则是kalman filter 模型，若隐状态是非线性连续，则是partical filter模型。
HMM有两个基本假设，三个基本问题，五个基本参数。
两个假设：
1延续朴素假设，有观测独立假设，输出序列之间相互独立，只和当前隐状态有关
2齐次一阶马尔科夫假设，齐次代表隐状态之间服从相同的分布，一阶代表只和上一时刻的隐状态有关（和语言模型的bi-gram一样）
五个基本参数
1隐状态qt，隐状态序列和隐状态的变量集合不一样，一个句子和一个汉语词典的关系
2观察值ot，观察序列和观测的集合不一样，同上
3pi，初始的状态转移矩阵q0到q1，pi = p（i1 = q1）
4A，状态转移矩阵A= 【a（ij）】，a（ij） = p（i（t+1）= q（j） | i（t）= q（i））
5 B，发射矩阵B= 【bj（k）】，bj（k）= p（v（t）= o（k）| i（t）= q（j））
三个问题：
1evaluation问题，即概率计算问题，给定模型参数pi，A， B，求序列O的概率P(O)是多少，可以通过前向递归算法/后向递归算法求解
2learning问题，求解模型的基本参数pi，A， B，通过baum welch算法求解
3decoding问题，又称预测/解码问题，序列标注问题，求解给定参数和观测序列，求解最大的隐状态序列，例如NER，给定一句话，求解其每个词的实体是什么。通过viterbi算法。
将HMM扩展到state space model中，inference中不止有decoding问题
inference（求解后验概率）
1decoding：求argmax p（i | v），i是隐状态，v是观测值，viterbi 算法
2prob of evidence：即为概率计算问题，前向/后向算法
3filtering：p（qt | o1,o2,o3…ot）,前向算法
4smoothing：p（qt | o1,o2,o3…ot…oT）,T为一个句子的长度，前向-后向算法
5prediction：p（qt +1 | o1,o2,o3…ot），由filtering可以求出

最大熵马尔科夫模型（MEMM）
由于HMM的两个假设过于理想，就出现了最大熵马尔科夫模型（MEMM），它打破观测独立假设（在序列标注问题时，生成模型对联合概率建模有点多余，判别模型对条件概率建模更简单），MEMM属于判别式模型在这里插入图片描述
建模公式为

用最大熵得到下列公式

在这里插入图片描述
MEMM当前隐藏状态 it应该是依赖当前时刻的观测节点 ot和上一时刻的隐藏节点 it-1（给定it的情况下，it-1与ot是相互独立的）。由于MEMM的局部归一化，出现了label bias problem。同样有三个基本问题，概率计算问题，模型参数计算问题，解码问题（序列标注问题）

由于局部归一化的问题，就出现了条件随机场，其无向图天然就有全局归一化的特性，解决了label bias problem，也打破了HMM的齐次一阶马尔科夫假设。

条件随机场（CRF）：通常是指chain structure CRF，是一个判别模型。
条件：其是一个判别模型
随机场：其是一个马尔科夫网络

概率图模型：
在这里插入图片描述
建模公式为：

特征函数，最大团等具体这里就不详细说明。同样有三个基本问题，概率计算问题，模型参数计算问题，解码问题（序列标注问题）。

总结：
HMM 到 MEMM： HMM模型中存在两个假设：一观察严格独立，二当前状态只与前一状态有关。但实际上例如序列标注问题应考虑观察序列的长度，上下文等等。MEMM解决了HMM观测独立性假设。因为HMM只限定在了观测与状态之间的依赖，而MEMM引入自定义特征函数，不仅可以表达观测之间的依赖，还可表示当前观测与前后多个状态之间的复杂依赖。
MEMM 到 CRF:CRF在MEMM基础上解决了MEMM的标注偏置问题，MEMM容易陷入局部最优是因为只在局部做归一化，而CRF由于无向性，统计了全局概率，在做归一化时考虑了数据在全局的分布，使得序列标注的解码变得最优解。
这三个模型主要应用在序列标注问题上。