jieba分词词性标注含义

快乐小码农

已于 2022-03-30 18:19:36 修改

阅读量5.9k

点赞数 2

分类专栏： Python 自然语言处理NLP 深度学习文章标签：自然语言处理 python 深度学习

于 2021-08-28 13:47:14 首次发布

本文链接：https://blog.csdn.net/u012744245/article/details/119967119

版权

深度学习同时被 3 个专栏收录

36 篇文章

订阅专栏

自然语言处理NLP

31 篇文章

订阅专栏

Python

18 篇文章

订阅专栏

结巴分词的词性标注

默认模式是使用jieba.posseg.cut()，包括24个词性标签（小写字母）。
paddle模式多了4个专名类别标签（大写字母）。

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。
除了jieba默认分词模式，提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式，通过enable_paddle()安装paddlepaddle-tiny，并且import相关代码；
用法示例

>>> import jieba
>>> import jieba.posseg as pseg
>>> words = pseg.cut("我爱北京天安门") #jieba默认模式
>>> jieba.enable_paddle() #启动paddle模式. 0.40版之后开始支持，早期版本不支持
>>> words = pseg.cut("我爱北京天安门",use_paddle=True) #paddle模式
>>> for word, flag in words:
...    print('%s %s' % (word, flag))
...
我 r
爱 v
北京 ns
天安门 ns