Python 词性标注

最新推荐文章于 2024-08-21 22:33:12 发布

AgoniAngel

最新推荐文章于 2024-08-21 22:33:12 发布

阅读量2.7k

点赞数 1

分类专栏： Python NLP

本文链接：https://blog.csdn.net/AgoniAngel/article/details/80146491

版权

本文介绍了Python中三种常用的词性标注器：DefaultTagger、N-gram标注器和正则表达式标注器，详细讲解了它们的工作原理和使用方法。

摘要由CSDN通过智能技术生成

1. DefaultTagger标注器

DefaultTagger可以将所有token标记为同一个标签（tag）。

sent = "Thanks for your reading!"
tokens = nltk.word_tokenize(sent)

default_tagger = nltk.DefaultTagger('NN')
tagged_words = default_tagger.tag(tokens)
print(tagged_words)

result:
[('Thanks', 'NN'), ('for', 'NN'), ('your', 'NN'), ('reading', 'NN'), ('!', 'NN')]

evaluate函数可以测试这种标记方法的准确率。这里使用brown语料库提供的标记好词性的tagged_sents进行测试：

brown_tagged_sents = brown.tagged_sents(categories='news')
default_tagger = nltk.DefaultTagger('NN')
print(default_tagger.evaluate(brown_tagged_sents))