文章大纲
序列标注
作为序列标注算法系列文章的第一篇,我们首先看看什么是序列标注问题?
“数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。
在自然语言处理领域,语句便是序列,对其进行标注是最常见的任务之一,只要涉及对一个序列中的各个元素进行打标签的问题,都可以通过序列标注模型解决。
比如,汉语分词标注【B,M,S,E】
词性标注为,名词,动词 等
命名实体识别标注为【BA,MA,EA,BO,MO,EO,BP,MP,EP,O】
有监督机器学习方法可以分为生成方法和判别方法:
1)生产式模型:直接对联合分布进行建模,如:混合高斯模型、隐马尔科夫模型、马尔科夫随机场等
2)判别式模型:对条件分布进行建模,如:条件随机场、支持向量机、逻辑回归等。
生成模型优缺点介绍:
优点:
1)生成给出的是联合分布,不仅能够由联合分布计算条件分布(反之则不行),还可以给出其他信息。如果一