Python【jieba】词性标注表

jieba词性标注表(0.39版)

encne.g.数量
a形容词高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 …4306
ad副形词努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 …110
ag形语素详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 …46
an名形词麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 …40
b区别词劣等 洲际性 超常规 同一性 年级 非农业 二合一 …1363
c连词再者说 倘 只此 或曰 以外 换句话说 虽是 除非 …504
d副词幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 …2422
df不要不要1
dg副语素俱 辄2
e叹词好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 …34
f方位词内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 …351
g语素媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 …969
h前接成分非 超低2
i成语绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 …25583
j简称略语交警 中低收入 四个现代 经检测 青委 车改 …1396
k后接成分型 者 式 们4
l习用语不懂装懂 相聚一刻 由下而上 十字路口 查无此人 …17721
m数词九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 …13178
mg数语素寅 巳2
mq数量词半年度 四方面 十付 三色 一口钟 四面 三分钟 …80
n名词男性 娇子 气压 写实性 联立方程 商业智能 寒窗 …117902
ng名语素诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 …280
nr人名雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 …72842
nrfg古近代人名刘备 关羽 张飞 赵云 任弼时 …484
nrt音译人名米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 …5941
ns地名南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 …17706
nt机构团体浙江队 中医院 中华网 铁道部 广电部 联想集团 …4713
nz其他专名培根 补丁 圣战士 英属 国药准字 …10441
o拟声词哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 …247
p介词顺当 顺着 借了 连着 乘着 除了 较之于 根 自 …114
q量词毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 …232
r代词该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 …759
rg代语素1
rr代词偺们 妳们 其他人3
rz代词这位1
s处所词世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 …591
t时间词新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 …1768
tg时间语素昔 晚 春 现 暮 夕 宵7
u助词则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 …20
ud1
ug1
uj1
ul1
uv1
uz1
v动词批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 …34761
vd副动词狡辩 持续 逆势3
vg动语素悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 …160
vi动词沉溺于 等同于 沉缅于 徜徉于4
vn名动词审查 相互毗连 销蚀 对联 劳工 漫游 …3235
vq动词捱过 唸过 去过 去浄4
x非语素字舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 …367
y语气词吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 …49
z状态词歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 …2624
zgzg鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 …5666

jieba是参照【ICTCLAS 汉语词性标注集 中科院】的

读取jieba词库,生成词性标注表,保存为excel

import jieba, pandas as pd, os
jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt'
df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]]
dt = {k: set() for k in df_jieba[2].values}
for f, w in df_jieba.values:dt[f].add(w)
ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()]
pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None)

带词性的分词

import jieba.posseg as jp
print(jp.lcut('我爱西樵山'))

[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]

词与词性间映射

from jieba.posseg import dt
print(dt.word_tag_tab)

en2cn字典映射

flag_en2cn = {
    'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
    'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
    'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
    'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
    'm': '数词', 'mg': '数语素', 'mq': '数量词',
    'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名',
    'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
    'o': '拟声词', 'p': '介词', 'q': '量词',
    'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
    's': '处所词', 't': '时间词', 'tg': '时间语素',
    'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
    'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
    'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素',
}

0.42版后paddle模式词性和专名类别标签

标签含义标签含义标签含义标签含义
n普通名词f方位名词s处所名词t时间
nr人名ns地名nt机构名nw作品名
nz其他专名v普通动词vd动副词vn名动词
a形容词ad副形词an名形词d副词
m数量词q量词r代词p介词
c连词u助词xc其他虚词w标点符号
PER人名LOC地名ORG机构名TIME时间
from jieba import enable_paddle, posseg
enable_paddle()
print(posseg.lcut('小基基在南海注册桂城人工智能公司'))
print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True))

其它词性标注表

nltk词性标注表

abbreviatefull namedescription
CCCoordinating conjunction连接词
CDCardinal number基数词
DTDeterminer限定词(this,those,such)不定限定词(any,each,every,either,all,many,other)
EXExistential there存在句
FWForeign word外来词
INPreposition or subordinating conjunction介词或从属连词
JJAdjective形容词或序数词
JJRAdjective, comparative形容词比较级
JJSAdjective, superlative形容词最高级
LSList item marker列表标示
MDModal情态助动词
NNNoun, singular or mass常用名词 单数形式
NNSNoun, plural常用名词 复数形式
NNPProper noun, singular专有名词,单数形式
NNPSProper noun, plural专有名词,复数形式
PDTPredeterminer前位限定词
POSPossessive ending所有格结束词
PRPPersonal pronoun人称代词
PRPPossessive pronoun所有格代名词
RBAdverb副词
RBRAdverb, comparative副词比较级
RBSAdverb, superlative副词最高级
RPParticle小品词
SYMSymbol符号
TOto作为介词或不定式格式
UHInterjection感叹词
VBVerb, base form动词基本形式
VBDVerb, past tense动词过去式
VBGVerb, gerund or present participle动名词和现在分词
VBNVerb, past participle过去分词
VBPVerb, non-3rd person singular present动词非第三人称单数
VBZVerb, 3rd person singular present动词第三人称单数
WDTWh-determiner关系限定词(whose,which)疑问限定词(what,which,whose)
WPWh-pronoun代词(who whose which)
WPPossessive wh-pronoun所有格代词
WRBWh-adverb疑问代词(how where when)
import nltk
text = 'Sweat is the lubricant of success'
words = nltk.word_tokenize(text)
tags = nltk.pos_tag(words)
print(words, tags, sep='\n')

[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’]
[(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]

百度AI词性标注表

用于【句法分析】

词性含义词性含义词性含义词性含义
Ag形语素g语素ns地名u助词
a形容词h前接成分nt机构团体vg动语素
ad副形词i成语nz其他专名v动词
an名形词j简称略语o拟声词vd副动词
b区别词k后接成分p介词vn名动词
c连词l习用语q量词w标点符号
dg副语素m数词r代词x非语素字
d副词Ng名语素s处所词y语气词
e叹词n名词tg时语素z状态词
f方位词nr人名t时间词un未知词

用于【词法分析】

词性含义词性含义词性含义词性含义
n普通名词f方位名词s处所名词t时间名词
nr人名ns地名nt机构团体名nw作品名
nz其他专名v普通动词vd动副词vn名动词
a形容词ad副形词an名形词d副词
m数量词q量词r代词p介词
c连词u助词xc其他虚词w标点符号
PER人名LOC地名ORG机构名TIME时间

示例

对比句法分析,缺少了

词性含义词性含义词性含义词性含义词性含义词性含义
Ag形语素g语素vg动语素Ng名语素dg副语素tg时语素
i成语l习用语j简称略语--h前接成分k后接成分
o拟声词y语气词e叹词--b区别词z状态词

pyltp词性标注表

TagDescriptione.g.
aadjective美丽
bother noun-modifier最高
cconjunction
dadverb非常
eexclamation
gmorpheme
hprefix
iidiom百花齐放
jabbreviation公检法
ksuffix
mnumber
ngeneral noun鸡蛋
nddirection noun右侧
nhperson name白居易
niorganization name医院
nllocation noun城郊
nsgeographical name佛山
nttemporal noun昨日
nzother proper noun对乙酰氨基酚
oonomatopoeia乒乓
ppreposition
qquantity
rpronoun
uauxiliary
vverb打架
wppunctuation
wsforeign wordsAPP
xnon-lexeme
zdescriptive words冷冰冰

补充

encn
adjective形容词
adverb副词
auxiliaryadj. 辅助的;n. 助动词;
abbreviation缩写
conjunction连词
determiner限定词
interjection感叹词
noun名词
numeraln. 数字;adj. 数字的
onomatopoeia拟声词
preposition介词
pronoun代词
quantifier量词
verb动词
idiom成语
prefix前缀
suffix后缀
attributive words区别词
  • 23
    点赞
  • 137
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 20
    评论
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小基基o_O

您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值