自然语言处理笔记
自然语言处理笔记 第三章 隐马尔科夫模型与序列标注-CSDN博客
自然语言处理笔记 第五章 条件随机场与序列标注-CSDN博客
词性:动词,名词等 所有词性的集合称为词性标注集
用途: 遇到OOV时,通过OOV的词性猜测其用法
直接用于抽取一些信息,名词的形容词是该名词的评价和性质信息
两个难点:同一个词不同语境可能有不同的词性;OOV的词性判别
词性标注可以作为分词的后续任务,也可以与分词合并成一个任务
多个任务的模型称为联合模型
复合式标签:综合考虑样本多个方面的性质
联合标注集VS独立模型:M*N, M+N
NLP流水线:给一个原始输入x逐步赋予分词,词性等各种性质
中文分词语料库远远多于词性标注语料库
实际工程上通常在大型分词语料库上训练分词器
然后与小型词性标注语料库上的词性标注模型组合为一个流水线式词法分析器
准确率:
自定义词性:将特定的一些词语打上自定义的标签
1、朴素实现:基于词典的规则系统,用户将自己关系的词语以及自定义词性以词典的形式挂载
词典只是机械式匹配。无法解决一词多词性问题
2、标注语料:标注一份语料库,然后训练一个统计模型
通过统计模型,根据上下文语境判断一个词的词性