jieba源碼研讀筆記（十二） - 詞性標注（使用DAG有向無環圖+動態規劃）

最新推荐文章于 2021-02-28 20:43:03 发布

keineahnung2345

最新推荐文章于 2021-02-28 20:43:03 发布

阅读量292

点赞数

分类专栏：機器學習 NLP jieba源碼研讀筆記文章标签： jieba nlp

本文链接：https://blog.csdn.net/keineahnung2345/article/details/88058950

版权

機器學習同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

NLP

18 篇文章 0 订阅

订阅专栏

jieba源碼研讀筆記

18 篇文章 2 订阅

订阅专栏

前言

在前篇中看到了POSTokenizer的詞性標注核心函數包括：__cut_DAG_NO_HMM及__cut，__cut_detail，__cut_DAG。

恰如其名，__cut_DAG_NO_HMM的功能是不使用HMM的詞性標注。
其它三個函數則會在使用HMM的模式中被使用。

本篇介紹的重點是不使用HMM的詞性標注。

__cut_DAG_NO_HMM

函數中用到的re_eng1己經於jieba源碼研讀筆記（四） - 正則表達式介紹過，它配對的是長度為1的英數字。

def __cut_DAG_NO_HMM(self, sentence):
    DAG = self.tokenizer.get_DAG(sentence)
    route = {}
    self.tokenizer.calc(sentence, DAG, route)
    x = 0
    N = len(sentence)
    buf = ''
    while x < N:
        y = route[x][1] + 1
        l_word = sentence[x:y]
        #re_eng1:長度為1的英數字
        if re_eng1.match(l_word):
            buf += l_word
            x = y
        else:
            if buf:
                #buf裡只有與re_eng1配對的字
                #所以這裡可以將它的詞性設為英文
                yield pair(buf, 'eng')
                buf = ''
            #如果字典裡沒有l_word，就把它的詞性當成'x'(未知)
            yield pair(l_word, self.word_tag_tab.get(l_word, 'x'))
            x = y
    if buf:
        #buf裡只有與re_eng1配對的字
        #所以這裡可以將它的詞性設為英文
        yield pair(buf, 'eng')
        buf = ''

此處代碼與jieba/__init__.py裡的__cut_DAG_NO_HMM雷同，可以參考jieba源碼研讀筆記（六） - 分詞之精確模式（使用動態規劃）。
不同之處僅在於：

self.get_DAG及self.calc變成self.tokenizer.get_DAG及self.tokenizer.calc
if re_eng.match(l_word) and len(l_word) == 1:被改成了if re_eng1.match(l_word)
yield的東西由一個詞彙變成一個pair

可以從上面的代碼中看出，__cut_DAG_NO_HMM是以匹配正則表達式re_eng1及查找字典self.word_tag_tab並用的方式來標注詞性。

測試：

import jieba.posseg as pseg
for w in pseg._lcut_internal_no_hmm("小明的英文名字是Ming"):
    print(w)
"""
小/a        #形容詞
明/a        #形容詞
的/uj       #結構助詞: 的
英文名字/n   #名詞
是/v        #動詞
Ming/eng    #外語
"""

以上詞性解釋參考自彙整中文與英文的詞性標註代號：結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English。

參考連結

jieba源碼研讀筆記（四） - 正則表達式
 jieba源碼研讀筆記（六） - 分詞之精確模式（使用動態規劃）
彙整中文與英文的詞性標註代號：結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English

keineahnung2345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba源碼研讀筆記（十二） - 詞性標注（使用DAG有向無環圖+動態規劃）

在前篇中看到了POSTokenizer的詞性標注核心函數包括：__cut_DAG_NO_HMM及__cut，__cut_detail，__cut_DAG。恰如其名，__cut_DAG_NO_HMM的功能是不使用HMM的詞性標注。其它三個函數則會在使用HMM的模式中被使用。本篇介紹的重點是不使用HMM的詞性標注。
复制链接

扫一扫

专栏目录