分类和序列标注
区别在于,序列标注针对的问题是一个序列,每个样本会有前后的关系。
三种标注方式:IO BIO BIOES
序列标记:词性标记(POS)、分块和命名实体识别(NER)
BiLSTM可以综合利用过去和未来的特征
CRF可以利用句子的特征
BiLSTM-CRF模型效果好,鲁棒性强,对词向量依赖不强
CRF可以带来更高的标签准确率,因为CRF可以带来标签的依赖关系,如果没有CRF,则标签之间是相互独立的。
CRF损失函数与维特比解码
CRF的标签可以互相依赖,所有标签跟整个输入都是相关的。
隐马尔可夫模型是一个生成模型(有方向的)
马尔可夫模型可以通过过去的状态推断未来的状态,如一阶马尔可夫模型,通过今天的天气预测明天的天气。
隐马尔可夫模型含有一些无法观测的状态,需要借助观测来推断这些状态。(比如我看不到天气预报,但我能通过雪糕的销量来推测温度的变化) y 温度状态 x 雪糕销量。此外,隐状态之间也是有关系的,比如在梅雨季节,某一天下雨,第二天下雨的可能性也很高。