分词
#jieba 中文分词
import jieba
str_chinese = "今天风和日丽,我去了清华大学"
tokens = jieba.cut(str_chinese, cut_all=True)# 全模式分割
print('/'.join(tokens))
tokens = jieba.cut(str_chinese, cut_all=False)# 精确模式分割,为默认模式
print('/'.join(tokens))
添加自定义字典
用于某些无法识别的特定名词
jieba.load_userdict('绝对路径')# 注意需要txt文件,且是UTF-8编码
# 也可以用 jieba.add_word('词语') 来添加特定词汇
注意事项:
1. 词典中一行包括:词语、频率、词性。
2. 文件最好使用 utf-8 编码,不要用 window 自带的记事本编辑,可以用 notepad++ 等软件。
3. jieba.load_userdict(file_name) 必须在 jieba.cut 之前执行。
词性标注
#词性标注
import jieba.posseg as pseg
words = pseg.cut("今天风和日丽,我去了清华大学")# 同时做了分词和词性标注两个操作
for w in words:
print("词性:{}——词:{}".format(w.flag, w.word))# flag是词性,word是词