生成模型:朴素贝叶斯(NB)、HMM
判别模型:k-NN、decision tree、LR、SVM、CRF、DNN
在数据标注任务中,主要用到了hmm和crf,标注任务本质是一个分类任务,输入是一个序列,输出是每一个的序列中词的标记类别。
HMM:关于时序的概率模型
隐马尔可夫链有两层含义:序列之间的马尔科夫性,状态序列隐藏不可观测
马尔科夫性:如果在t时刻的状态St满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。
隐藏的马尔科夫链随机生成的转台序列称为state sequence,而由此产生的观测的随机序列称为观测序列observation sequence:
隐马尔可夫三要素:
初始概率π:
转移概率A:
发射概率B:
马尔科夫模型做了两个假设:齐次马尔科夫性、观测独立性假设
HMM有三个基本问题:
概率计算:直接计算(计算量太大)、前向后向算法
学习问题:Baum-Welch算法(EM实现)
预测问题:近似算法(t时刻选择最有可能出现的状态i)、Viterbi算法(dp算法)
CRF(conditional random field)给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型
在标注问题中,主要应用线性链(linear chain)条件随机场,形式为对数线性链模型,学习方法是极大似然估计或正则化的极大似然估计,线性链条件随机场2001年提出。
1、概率无向图模型
概率无向图模型(probabilistic undirected graphical model),又称为马尔科夫随机场,是一个由无向图表示的联合概率分布。
给定一个联合概率分布和表示它的无向图G,无向图表示的随机变量之间存在
成对马尔科夫性、局部马尔科夫性、全局马尔科夫性,三者等价
2、条件随机场
概率计算问题:
学习算法:
预测问题: