jieba源碼研讀筆記(九) - 分詞之搜索引擎模式

jieba源碼研讀筆記(九) - 分詞之搜索引擎模式

前言

jieba的分詞共包含三種模式,分別是:全模式、精確模式及搜索引擎模式。
其中精確模式(在jieba中為默認模式)又分為使用HMM或不使用HMM兩種模式。
前面己經介紹過了全模式及精確模式,並且也看到了作為分詞函數入口的cut

本篇將介紹搜索引擎模式,對應的是jieba/__init__.pyTokenizer這個類別中的cut_for_search這個函數,它會調用前篇介紹的cut函數。

以下是jieba文檔中對搜索引擎模式的描述:

jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM
模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

cut_for_search函數

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

搜索引擎模式是基於精確模式,從下面的代碼中可以看到,在cut_for_search函數中會調用cut這個函數。

def cut_for_search(self, sentence, HMM=True):
    """
    Finer segmentation for search engines.
    """
    # cut函數中cut_all參數默認為False,所以使用的是精確模式
    words = self.cut(sentence, HMM=HMM)
    for w in words:
        if len(w) > 2:
            #尋找詞彙w中是否包含二字詞
            for i in xrange(len(w) - 1):
                gram2 = w[i:i + 2]
                if self.FREQ.get(gram2):
                    #如果有包含二字詞則輸出
                    yield gram2
        if len(w) > 3:
            #尋找詞彙w中是否包含三字詞
            for i in xrange(len(w) - 2):
                gram3 = w[i:i + 3]
                if self.FREQ.get(gram3):
                    yield gram3
        #除了詞彙w中所包含的二字詞及三字詞,也輸出w本身
        yield w

測試:

#精確模式:
list(jieba.cut("世界卫生组织")) 
#['世界卫生组织']

#搜索引擎模式:
list(jieba.cut_for_search("世界卫生组织")) 
#['世界', '卫生', '组织', '世界卫生组织']

#與全模式做對比:
list(jieba.cut("世界卫生组织", cut_all=True)) 
#['世界', '世界卫生', '世界卫生组织', '卫生', '卫生组织', '组织']

可以看到搜索引擎模式的功能與文檔一致,它會基於精確模式的結果,將長詞再次切分。
而全模式則是找出句中所有的詞彙,與搜索引擎模式稍有不同。

參考連結

jieba文檔

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值