1.名词解释:
词性标注(part-of-speech tagging ,POS tagging):将词汇按照词性分类并相应地对他们进行分类
词性也称你为词类,词范畴。用于特定任务标记的集合被称为一个标记集。
1.1 使用词性标注器
使用词性标注器处理一个词序列,为每一个词增加词性标记。
(a) pos_tag():词性标注
使用text.similar(“”)寻找同词性的词语
1.2 标注语料库
使用str2tuple()表示一个已经标注的标识符的标准字符创建一个元组。
brown.tagged_words()[0:10] 打印前10个词汇标注
word_tokenize(): 分词
sent_tokenize(data) 分句