nltk词性标注

Wanderer X

已于 2024-06-09 16:55:00 修改

阅读量102

点赞数 2

分类专栏：代码文章标签： python nlp

于 2024-06-09 16:11:57 首次发布

本文链接：https://blog.csdn.net/wandererXX/article/details/139563003

版权

代码专栏收录该内容

13 篇文章 0 订阅

订阅专栏

python代码：

import nltk
# nltk.data.path.append("path/to/nltk_data")
# nltk.download('averaged_perceptron_tagger')

# 创建一个字典,将NLTK标注映射到自定义标注，可忽略
tag_map = {
    'DT': 'DET',
    'NN': 'NOUN',
    'VBZ': 'VERB',
    'CD': 'NUM',
    'CC': 'CCONJ',
    'PDT': 'ADJ',
    'JJ': 'ADJ', 
    'NNS': 'NOUN',
    'RB': 'ADV',
    '.': '.'
}

sentence = "A person goes four and half steps forward."
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)

# 使用映射字典将NLTK标注转换为自定义标注
ttagged_str = " ".join([f"{word}/{tag_map.get(tag, tag)}" for word, tag in tagged])
result = f"{sentence}#{tagged_str}"
print(result)