jieba源碼研讀筆記（九） - 分詞之搜索引擎模式

最新推荐文章于 2023-12-11 18:23:59 发布

keineahnung2345

最新推荐文章于 2023-12-11 18:23:59 发布

阅读量723

点赞数

分类专栏：機器學習 NLP jieba源碼研讀筆記文章标签： nlp jieba

本文链接：https://blog.csdn.net/keineahnung2345/article/details/86735872

版权

機器學習同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

NLP

18 篇文章 0 订阅

订阅专栏

jieba源碼研讀筆記

18 篇文章 2 订阅

订阅专栏

jieba源碼研讀筆記（九） - 分詞之搜索引擎模式

前言
cut_for_search函數
參考連結

前言

jieba的分詞共包含三種模式，分別是：全模式、精確模式及搜索引擎模式。
其中精確模式（在jieba中為默認模式）又分為使用HMM或不使用HMM兩種模式。
前面己經介紹過了全模式及精確模式，並且也看到了作為分詞函數入口的cut。

本篇將介紹搜索引擎模式，對應的是jieba/__init__.py裡Tokenizer這個類別中的cut_for_search這個函數，它會調用前篇介紹的cut函數。

以下是jieba文檔中對搜索引擎模式的描述：

jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM
模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

cut_for_search函數

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

搜索引擎模式是基於精確模式，從下面的代碼中可以看到，在cut_for_search函數中會調用cut這個函數。

def cut_for_search(self, sentence, HMM=True):
    """
    Finer segmentation for search engines.
    """
    # cut函數中cut_all參數默認為False，所以使用的是精確模式
    words = self.cut(sentence, HMM=HMM)
    for w in words:
        if len(w) > 2:
            #尋找詞彙w中是否包含二字詞
            for i in xrange(len(w) - 1):
                gram2 = w[i:i + 2]
                if self.FREQ.get(gram2):
                    #如果有包含二字詞則輸出
                    yield gram2
        if len(w) > 3:
            #尋找詞彙w中是否包含三字詞
            for i in xrange(len(w) - 2):
                gram3 = w[i:i + 3]
                if self.FREQ.get(gram3):
                    yield gram3
        #除了詞彙w中所包含的二字詞及三字詞，也輸出w本身
        yield w

測試：

#精確模式:
list(jieba.cut("世界卫生组织")) 
#['世界卫生组织']

#搜索引擎模式:
list(jieba.cut_for_search("世界卫生组织")) 
#['世界', '卫生', '组织', '世界卫生组织']

#與全模式做對比:
list(jieba.cut("世界卫生组织", cut_all=True)) 
#['世界', '世界卫生', '世界卫生组织', '卫生', '卫生组织', '组织']

可以看到搜索引擎模式的功能與文檔一致，它會基於精確模式的結果，將長詞再次切分。
而全模式則是找出句中所有的詞彙，與搜索引擎模式稍有不同。

參考連結

jieba文檔

keineahnung2345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba源碼研讀筆記（九） - 分詞之搜索引擎模式

jieba的分詞共包含三種模式，分別是：全模式、精確模式及搜索引擎模式。其中精確模式（在jieba中為默認模式）又分為使用HMM或不使用HMM兩種模式。前面己經介紹過了全模式及精確模式，並且也看到了作為分詞函數入口的cut。本篇將介紹搜索引擎模式，對應的是jieba/__init__.py裡Tokenizer這個類別中的cut_for_search這個函數，它會調用前篇介紹的cut函數。以下是jieba文檔中對搜索引擎模式的描述：jieba.cut_for_search 方法接受两个参数：需要分词的字符串
复制链接

扫一扫