词性标注:将词汇按照词性进行分来并相应地进行标注。
Jieba词性标注的基本原理可以概括为:对于需要标注的词,如果词典中包括该词,就从词典中读取该词的词性;如果没有该词,则用Viterbi算法来进行词性估计。
代码展示:
# -*- coding: utf-8 -*-
import jieba.posseg as pseg
words=pseg.cut("我爱北京天安门")
for word,flag in words:
print('%s%s'%(word,flag))
词性标注:将词汇按照词性进行分来并相应地进行标注。
Jieba词性标注的基本原理可以概括为:对于需要标注的词,如果词典中包括该词,就从词典中读取该词的词性;如果没有该词,则用Viterbi算法来进行词性估计。
代码展示:
# -*- coding: utf-8 -*-
import jieba.posseg as pseg
words=pseg.cut("我爱北京天安门")
for word,flag in words:
print('%s%s'%(word,flag))