python结巴分词

结巴分词总结

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

常用方法

  1. jieba.cut:该方法接受三个输入参数:
      参数1:需要分词的字符串;
      参数2:cut_all参数用来控制是否采用全模式,默认为精确模式;
    cut_all=True 全模式
    cut_all=false 精确(默认)模式
      参数3:HMM参数用来控制是否适用HMM模型
    返回的结构是可以得到的generator(生成器):print(list(seq_list))
  2. jieba.cut_for_search:该方法接受两个参数:
      参数1:需要分词的字符串;
      参数2:是否使用HMM模型,
    该方法适用于搜索引擎构建倒排索引的分词,粒度比较细。
    返回的结构都是可以得到的generator(生成器):print(list(seq_list))
  3. jieb.lcut 以及 jieba.lcut_for_search
    直接返回list:print(seq_list)

添加词

两种方式添加实体:

  1. ** 添加词**
    jieba.add_word(‘古月哥欠’)
    jieba.add_word(‘贝戈马户’)
    #删除词
    jieba.del_word(‘自定义词’)
  2. 添加词典:jieba.load_userdict(file_name)
    file_name 为文件类对象或自定义词典的路径。词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
    file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。

删除词

  1. 删除词
    jieba.del_word(‘自定义词’)

词性标注

  1. 导入词性标注的包
    import jieba.posseg as pseg
    
  2. 词性标注
    result = pseg.cut(test_sent)
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值