jieba源碼研讀筆記(九) - 分詞之搜索引擎模式
前言
jieba的分詞共包含三種模式,分別是:全模式、精確模式及搜索引擎模式。
其中精確模式(在jieba中為默認模式)又分為使用HMM或不使用HMM兩種模式。
前面己經介紹過了全模式及精確模式,並且也看到了作為分詞函數入口的cut
。
本篇將介紹搜索引擎模式,對應的是jieba/__init__.py
裡Tokenizer
這個類別中的cut_for_search
這個函數,它會調用前篇介紹的cut
函數。
以下是jieba文檔中對搜索引擎模式的描述:
jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM
模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
cut_for_search函數
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
搜索引擎模式是基於精確模式,從下面的代碼中可以看到,在cut_for_search
函數中會調用cut
這個函數。
def cut_for_search(self, sentence, HMM=True):
"""
Finer segmentation for search engines.
"""
# cut函數中cut_all參數默認為False,所以使用的是精確模式
words = self.cut(sentence, HMM=HMM)
for w in words:
if len(w) > 2:
#尋找詞彙w中是否包含二字詞
for i in xrange(len(w) - 1):
gram2 = w[i:i + 2]
if self.FREQ.get(gram2):
#如果有包含二字詞則輸出
yield gram2
if len(w) > 3:
#尋找詞彙w中是否包含三字詞
for i in xrange(len(w) - 2):
gram3 = w[i:i + 3]
if self.FREQ.get(gram3):
yield gram3
#除了詞彙w中所包含的二字詞及三字詞,也輸出w本身
yield w
測試:
#精確模式:
list(jieba.cut("世界卫生组织"))
#['世界卫生组织']
#搜索引擎模式:
list(jieba.cut_for_search("世界卫生组织"))
#['世界', '卫生', '组织', '世界卫生组织']
#與全模式做對比:
list(jieba.cut("世界卫生组织", cut_all=True))
#['世界', '世界卫生', '世界卫生组织', '卫生', '卫生组织', '组织']
可以看到搜索引擎模式的功能與文檔一致,它會基於精確模式的結果,將長詞再次切分。
而全模式則是找出句中所有的詞彙,與搜索引擎模式稍有不同。