POS是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。
其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。
c词性标注就是在句子中的分词后加上词的性质如名词(n)、动词(v)、等等。
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:
儿童歌曲
欢快歌曲
各种歌曲
悲伤歌曲
……
如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如
[形容词]歌曲
[名词]歌曲
而**[代词]歌曲**往往不是描述歌曲属性的模板。
词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析,是中文信息处理的基础性课题之一。
常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。
NLTK词性标注英文简称及分类:
标注词表:
名词 | NN,NNS,NNP,NNPS |
---|---|
代词 | PRP,PRP$ |
形容词 |