jieba 分词源代码研读(1)

最新推荐文章于 2023-07-21 17:10:53 发布

爱知菜

最新推荐文章于 2023-07-21 17:10:53 发布

阅读量9.8k

点赞数

分类专栏： Python NLP

本文链接：https://blog.csdn.net/rav009/article/details/12220977

版权

Python 同时被 2 个专栏收录

66 篇文章 0 订阅

订阅专栏

NLP

13 篇文章 2 订阅

订阅专栏

从github上下载源代码后，打开文件夹 jieba，找到__init__.py，结巴分词最主要的函数 cut 就定义在这个文件中。

这个函数的前半部分主要是根据用户指定的模式用正则表达式将输入的文本分块(block)。然后针对每一块进行分词，默认情况(精确模式)下使用的块的分词函数叫 __cut_DAG 。

__cut_DAG 函数调用了 get_DAG(sentence)，这是用来生成每一块(sentence)的有向无环图DAG。要生成DAG就必须有语料库的辅助了，所以在同样在文件夹 jieba 下，可以找到一个文件：dict.txt。语料库的有3列，第一列是词，第二列是词频，第三列是词性。在程序中初始化语料库的动作在函数 initialize(DICTIONARY) 中，它通过一个包装器 require_initialized 在 get_DAG 函数被调用的时候才执行。代码如下：

def require_initialized(fn):

    @wraps(fn) #wraps的作用是保留被包装函数的一些属性,比如__doc__
    def wrapped(*args, **kwargs):
        global initialized
        if initialized:
            return fn(*args, **kwargs)
        else:
            initialize(DICTIONARY)
            return fn(*args, **kwargs)

    return wrapped

语料库加载后是要保存在 trie 树中的，让我们来看看作者是怎么实现中文的 trie 树的。

在 initialize 函数的最开头可以看到作者用with关键词优雅的获取了当前线程的RLock，with 的用法有点类似C#里的关键词using，详见:http://blog.csdn.net/largetalk/article/details/6910277

jieba 分词为了加快语料库的加载使用了缓存技术，它会将生成好的语料库数据结构用 marshal 序列化，然后存放在系统的临时目录（用到了 tempfile 库）下。如果找不到缓存的 .cache 文件，调用 gen_trie 函数来生成 trie 树。该函数的代码如下：

def gen_trie(f_name):
    lfreq = {}
    trie = {}
    ltotal = 0.0
    with open(f_name, 'rb') as f:
        lineno = 0 
        for line in f.read().rstrip().decode('utf-8').split('\n'):
            lineno += 1
            try:
                word,freq,_ = line.split(' ')
                freq = float(freq)
                lfreq[word] = freq
                ltotal+=freq
                p = trie
                for c in word:
                    if c not in p:
                        p[c] ={}
                    p = p[c]
                p['']='' #ending flag
            except ValueError, e:
                logger.debug('%s at line %s %s' % (f_name,  lineno, line))
                raise ValueError, e
    return trie, lfreq,ltotal

这段代码就是 trie 树的具体实现，发现 trie 树其实就是一个嵌套的 dict，根据我的测试，使用默认的 dict.txt 生成的 trie 树在第一层的节点数高达：11772，这是一个值得改进的地方。如果使用自己的语料库而且又非常庞大的话，可以使用trie森林这样的手段，以词语的首字为根节点得到一颗trie树，形成一个trie森林。