python nltk 基本操作

最新推荐文章于 2025-04-26 23:17:12 发布

Sherryllll

最新推荐文章于 2025-04-26 23:17:12 发布

阅读量2.1w

点赞数 4

本文链接：https://blog.csdn.net/sherrylml/article/details/45196505

版权

分词

nltk.sent_tokenize(text) #按句子分割
nltk.word_tokenize(sentence) #分词
nltk的分词是句子级别的，所以对于一篇文档首先要将文章按句子进行分割，然后句子进行分词：
这里写图片描述

词性标注

nltk.pos_tag(tokens) #对分词后的句子进行词性标注

tags = [nltk.pos_tag(tokens) for tokens in words]
>>>tags
[[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('text', 'NN'), ('for', 'IN'), ('test', 'NN'), ('.', '.')], [('And', 'CC'), ('I', 'PRP'), ('want', 'VBP'), ('to', 'TO'), ('learn', 'VB'), ('how', 'WRB'), ('to', 'TO'), ('use', 'VB'), ('nltk', 'NN'), ('.', '.')]]