Python 分类和标注词汇

1.名词解释:

    词性标注(part-of-speech tagging ,POS tagging):将词汇按照词性分类并相应地对他们进行分类

    词性也称你为词类,词范畴。用于特定任务标记的集合被称为一个标记集。

 1.1 使用词性标注器

    使用词性标注器处理一个词序列,为每一个词增加词性标记。

    (a) pos_tag():词性标注

  使用text.similar(“”)寻找同词性的词语

 

 

 

 

 

1.2 标注语料库

使用str2tuple()表示一个已经标注的标识符的标准字符创建一个元组。

brown.tagged_words()[0:10] 打印前10个词汇标注

word_tokenize(): 分词

sent_tokenize(data) 分句

 

展开阅读全文

没有更多推荐了,返回首页