一、jieba词性标注
"""
词性标注
"""
import jieba.posseg as pseg
result = pseg.cut("我是来自韩山师范学院,数学与统计学院的一名学生")
for w in result:
print(w.word,"/", w.flag, ",", end=' ')
打印输出:
我/r 是/v 来自/v 韩山/ns 师范学院/n ,/x 数学/n 与/p 统计/v 学院/n 的/uj 一名/m 学生/n
二、哈工大LTP词性标注
# 词性标注
from pyltp import Postagger
from pyltp import Segmentor
# 分词
segmentor = Segmentor() # 初始化实例
segmentor.load('ltp_data/cws.model') # 加载模型
postagger = Postagger() # 初始化实例
postagger.load('ltp_data/pos.model') # 加载模型
words = segmentor.segment('我是来自潮州的韩山师范学院,数学与统计学院的一名学生') # 分词
postags = postagger.postag(words) # 词性标注
words_and_pos = zip(words, postags)
print(' '.join('%s/%s' % (word, tag) for (word, tag) in zip(words, postags)))
postagger.release() # 释放模型
输出结果:
我/r 是/v 来自/v 潮州/ns 的/u 韩山/ns 师范学院/n ,/wp 数学/n 与/c 统计/v 学院/n 的/u 一/m 名/q 学生/n
(改天再更新)