最近准备面试,然后了解了一下nltk库的一些常用的接口,现在来跟大家分享一下
首先是通过nltk对文本进行分词
import nltk
nltk.word_tokenize("You raise me up")
这个实际上就是将文本中的每个词提取出来
然后我们可以吧提取出来的词做一个词性标注,接口是word_tokenize
text = nltk.word_tokenize("you raise me up")
nltk.pos_tag(text)
结果如下:
单词旁边的字符串就表示词性,至于每种字符串分别代表哪种词性,可以参考这篇博文