分词————jieba分词(Python)

要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充:
 
一、分词
         
1 import jieba
2 str = u'李建华为人民'
3 word = jieba.cut(str, HMM=True) # 产生一个生成器对象
4 word_list = [val for val in word]
5 for each in word_list:
6     print each
在上述代码中第1行导入jieba库; 第3行对词进行切分,生成一个生成器对象(HMM的参数就是是否使用隐马尔可夫的方式分词, HMM后面单独写一个再深入理解一下)。
简单程序运行结果如下:
 
二 、用户自定义词典
         在jieba文件目录下,添加用户自定义词典 (例如:‘userdict.txt’) 将自定义的词、词频次和词性(词性可加可不加)加入(空格间隔)。
          
       在程序中执行下列代码即可
jieba.load_userdict('userdict.txt')   # 加载上述用户字典
       例句:
              他来到了网易杭研大厦    
        加载用户自定义字典之前,粉刺结果如下图:
            
       加载用户词典‘userdict.txt’后分词结果如下图:
        
            

转载于:https://www.cnblogs.com/HankCui/p/10993371.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值