import nltk
from nltk.tag.util import tuple2str
from nltk.corpus import treebank
from nltk.tag import untag
import os,os.path
import nltk.data
# nltk.download('universal_tagset')
# # 词性标注
text1 = nltk.word_tokenize("It is a pleasant day today")
print(nltk.pos_tag(text1))
# CC - 并列连词
# CD -基数
# DT - 限定词
# EX - 存在的there
# FW - 外来词
# IN - 介词或从属连词
# JJ - 形容词
# JJR - 形容词,比较级
# JJS - 形容词,最高级
# LS - 列表项标记
# MD - 情态动词
# NN - 名词,单数或不可数
# NNS - 名词,复数
# NNP - 专有名词,单数
# NNPS - 专有名词,复数
# PDT - 前置限定词
# POS - 所有格结尾
# PRP - 人称代词
# PRP$ - 所有格代词(prolog版本为PRP-S)
# RB - 副词
# RBR - 副词,比较级
# RBS - 副词,最高级
# RP - 小品词
# SYM - 符号
# TO - to
# UH - 叹词
# VB - 动词
# 基本形式VBD - 动词,过去式
# VBG - 动词,动名词或现在分词
# VBN - 动词,过去分词
# VBP - 动词,现在时非第三人称单数
# VBZ - 动词,现在时第三人称单数
# WDT - WH-限定词
# WP - WH-代词
# WP $ - 所有格WH-代词
NLTK词性标注和组快代码示例
最新推荐文章于 2022-04-09 10:47:10 发布