pynlpir(ICTCLAS)初步使用

最新推荐文章于 2021-02-18 19:36:09 发布

微电子学与固体电子学-俞驰

最新推荐文章于 2021-02-18 19:36:09 发布

阅读量1.8k

点赞数

分类专栏： Python自然语言处理

Python自然语言处理专栏收录该内容

60 篇文章 0 订阅

订阅专栏

# -*- coding:utf-8 -*-
import pynlpir  # 引入依赖包
pynlpir.open()  # 打开分词器
# s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统。'  # 实验文本
s='我想听刘德华的笨小孩'
pynlpir.segment(s)  # 默认打开分词和词性标注功能
print(pynlpir.segment(s))
pynlpir.segment(s, pos_english=False)   # 把词性标注语言变更为汉语
pynlpir.segment(s, pos_tagging=False)   # 使用pos_tagging来关闭词性标注
from ctypes import c_char_p
pynlpir.nlpir.AddUserWord(c_char_p("自定义词汇".encode()))
pynlpir.close()

输出结果：

[('我', 'pronoun'), ('想', 'verb'), ('听', 'verb'), ('刘德华', 'noun'), ('的', 'particle'), ('笨', 'adjective'), ('小孩', 'noun')]