文本处理的方法

分词

全模式分词

import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut(content, cut_all=True))
print(jieba.lcut(content, cut_all=True))
--------------------------------------------
<generator object Tokenizer.cut at 0x000001BF889215C8>
['公信', '处女', '女干事', '干事', '每月', '月经', '经过', '下属', '科室', '都', '要', '亲口', '口交', '交代', '24', 
'口交', '交换', '交换机', '换机', '等', '技术', '技术性', '性器', '器件', '的', '安装', '安装工', '装工', '工作']

精确分词

import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut(content, cut_all=False))
print(jieba.lcut(content, cut_all=False))
-------------------------------------------
<generator object Tokenizer.cut at 0x000001BF8DA812B0>
['公信', '处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

搜索引擎分词

在精确分词的基础上,对长词进行切割,提高召回率,适用于搜索引擎分词

import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut_for_search(content))
print(jieba.lcut_for_search(content))
--------------------------------------------
<generator object Tokenizer.cut_for_search at 0x000001BF8DAC5780>
['公信', '处', '干事', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换', '换机', '交换机', '等', '技术', '技术性', '器件', '的', '安装', '工作']

jieben内部自定义了自己的词库,如果要往里面添加属于自己的词库,请参照这个链接的做法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值