# -*- coding:utf-8 -*-
import pynlpir # 引入依赖包
pynlpir.open() # 打开分词器
# s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。' # 实验文本
s='我想听刘德华的笨小孩'
pynlpir.segment(s) # 默认打开分词和词性标注功能
print(pynlpir.segment(s))
pynlpir.segment(s, pos_english=False) # 把词性标注语言变更为汉语
pynlpir.segment(s, pos_tagging=False) # 使用pos_tagging来关闭词性标注
from ctypes import c_char_p
pynlpir.nlpir.AddUserWord(c_char_p("自定义词汇".encode()))
pynlpir.close()
输出结果:
[('我', 'pronoun'), ('想', 'verb'), ('听', 'verb'), ('刘德华', 'noun'), ('的', 'particle'), ('笨', 'adjective'), ('小孩', 'noun')]