分词
全模式分词
import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut(content, cut_all=True))
print(jieba.lcut(content, cut_all=True))
--------------------------------------------
<generator object Tokenizer.cut at 0x000001BF889215C8>
['公信', '处女', '女干事', '干事', '每月', '月经', '经过', '下属', '科室', '都', '要', '亲口', '口交', '交代', '24',
'口交', '交换', '交换机', '换机', '等', '技术', '技术性', '性器', '器件', '的', '安装', '安装工', '装工', '工作']
精确分词
import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut(content, cut_all=False))
print(jieba.lcut(content, cut_all=False))
-------------------------------------------
<generator object Tokenizer.cut at 0x000001BF8DA812B0>
['公信', '处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']
搜索引擎分词
在精确分词的基础上,对长词进行切割,提高召回率,适用于搜索引擎分词
import jieba
content = '公信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# cut_all = True表示精确匹配,即返回最正确的分词情况
print(jieba.cut_for_search(content))
print(jieba.lcut_for_search(content))
--------------------------------------------
<generator object Tokenizer.cut_for_search at 0x000001BF8DAC5780>
['公信', '处', '干事', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换', '换机', '交换机', '等', '技术', '技术性', '器件', '的', '安装', '工作']