jieba中文分词

分词

#jieba 中文分词
import jieba
str_chinese = "今天风和日丽,我去了清华大学"
tokens = jieba.cut(str_chinese, cut_all=True)# 全模式分割
print('/'.join(tokens))
tokens = jieba.cut(str_chinese, cut_all=False)# 精确模式分割,为默认模式
print('/'.join(tokens))

添加自定义字典

用于某些无法识别的特定名词

jieba.load_userdict('绝对路径')# 注意需要txt文件,且是UTF-8编码
# 也可以用 jieba.add_word('词语') 来添加特定词汇

 注意事项:

1. 词典中一行包括:词语、频率、词性。

2. 文件最好使用 utf-8 编码,不要用 window 自带的记事本编辑,可以用 notepad++ 等软件。

3. jieba.load_userdict(file_name) 必须在 jieba.cut 之前执行。

 词性标注

#词性标注
import jieba.posseg as pseg
words = pseg.cut("今天风和日丽,我去了清华大学")# 同时做了分词和词性标注两个操作
for w in words:
    print("词性:{}——词:{}".format(w.flag, w.word))# flag是词性,word是词

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值