NLTK学习笔记(五):分类和标注词汇

最新推荐文章于 2022-04-09 10:47:10 发布

e62ces0iem

最新推荐文章于 2022-04-09 10:47:10 发布

阅读量441

点赞数

本文链接：https://blog.csdn.net/e62ces0iem/article/details/73195426

版权

本文详细介绍了NLTK库中的词性标注器，包括如何读取和探索标注语料库，以及各种自动标注方法，如默认标注器、正则表达式标注器、查询标注器和N-gram标注器。此外，还探讨了基于转换的Brill标注器的优势。

摘要由CSDN通过智能技术生成

[TOC]

词性标注器

之后的很多工作都需要标注完的词汇。nltk自带英文标注器pos_tag

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")
print(text)
print(nltk.pos_tag(text))

标注语料库

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

text = "The/AT grand/JJ is/VBD ."
print([nltk.tag.str2tuple(t) for t in text.split()])

读取已经标注的语料库

nltk语料库ue肚脐提供了统一接口，可以不必理会不同的文件格式。格式:语料库.tagged_word()/tagged_sents()。参数可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名词、动词、形容词等

这里以名词为例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))
print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')])
################下面是查找money的不同标注#################################
wsj &#

最低0.47元/天解锁文章

e62ces0iem

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLTK学习笔记(五):分类和标注词汇

[TOC]词性标注器之后的很多工作都需要标注完的词汇。nltk自带英文标注器pos_tagimport nltktext = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_tag(text))标注语料库表示已经标注的标
复制链接

扫一扫