2019年03月_keineahnung2345

原创 jieba源碼研讀筆記（十八） - 關鍵詞提取之TF-IDF使用示例

jieba中除了給出TF-IDF算法實現外，還提供了它的使用示例。使用示例在test這個資料夾底下。 extract_tags.py檔是關鍵詞提取的使用示例。

2019-03-05 15:23:23 418

原创 jieba源碼研讀筆記（十七） - 關鍵詞提取之TF-IDF

在前篇介紹了jieba/analyse/tfidf.py的架構，本篇將介紹該檔案中的TFIDF類別。TFIDF類別的extract_tags函數負責實現核心算法。透過allowPOS這個參數可以選擇要使用一般的tokenizer或是用於詞性標注的tokenizer。參考維基百科中的tf-idf頁面：TF代表的是term frequency，即文檔中各詞彙出現的頻率。IDF代表的是inverse document frequency，代表詞彙在各文檔出現頻率倒數的對數值(以10為底)。而TF-IDF值則

2019-03-05 12:03:28 1691

原创 jieba源碼研讀筆記（十六） - 關鍵詞提取之tfidf.py檔初探

jieba支持使用兩種算法做關鍵詞提取，包括TF-IDF及TextRank。其中TF-IDF算法主要是在jieba/analyse/tfidf.py這個檔案中完成。本篇將會介紹tfidf.py這個檔案的架構。

2019-03-05 11:10:44 956

原创 jieba源碼研讀筆記（十五） - 關鍵詞提取函數入口

jieba的關鍵詞提取功能主要由jieba/analyse這個模組實現。jieba支援兩種關鍵詞提取的算法，包括TF-IDF及TextRank兩種。在jieba/analyse/__init__.py中，會調用TFIDF及TextRank這兩個檔案，並利用它們定義一些全局變數及函數。

2019-03-05 09:11:24 213

原创 jieba源碼研讀筆記（十四） - 詞性標注函數入口

在前面兩篇中介紹了__cut_DAG_NO_HMM及__cut_DAG函數。本篇介紹的__cut_internal函數是__cut_DAG及__cut_DAG_NO_HMM這兩個函數的入口，它的參數HMM可以選擇要使用哪一個。本篇還會介紹_lcut_internal，_lcut_internal_no_hmm，cut及lcut，它們是__cut_internal的wrapper，讓它變得更易用。

2019-03-04 16:46:28 327

原创 jieba源碼研讀筆記（十三） - 詞性標注（使用HMM維特比算法發現新詞）

jieba/posseg/__init__.py裡的__cut_DAG負責的是使用了HMM的詞性標注。__cut_DAG，__cut_detail，__cut負責詞性標注的核心算法，其中__cut函數還會呼叫viterbi.py裡的viterbi這個函數。而cut及__cut_internal則是__cut_DAG的wrapper，隱藏了一些細節，讓它們變得更容易使用。本篇將由內而外介紹，從viterbi到__cut，__cut_detail直到__cut_DAG函數。

2019-03-04 15:43:49 539

原创 jieba源碼研讀筆記（十二） - 詞性標注（使用DAG有向無環圖+動態規劃）

在前篇中看到了POSTokenizer的詞性標注核心函數包括：__cut_DAG_NO_HMM及__cut，__cut_detail，__cut_DAG。恰如其名，__cut_DAG_NO_HMM的功能是不使用HMM的詞性標注。其它三個函數則會在使用HMM的模式中被使用。本篇介紹的重點是不使用HMM的詞性標注。

2019-03-01 19:29:19 296

原创 jieba源碼研讀筆記（十一） - 詞性標注之POSTokenizer初探

前篇看了posseg/__init__.py檔的大架構，這裡將繼續介紹檔案中的POSTokenizer這個類別。本篇僅介紹POSTokenizer類別初始化及載入字典的部份，核心函數及其wrapper將會在後續的文章裡介紹。

2019-03-01 16:30:29 825

原创 jieba源碼研讀筆記（十） - 詞性標注功能初探

jieba除了分詞，還包括了詞性標注及關鍵詞提取的功能。詞性標注的功能是在posseg這個模組中實現。以下是jieba文檔中對詞性標注功能的描述：标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法關於ictclas，可參考ICTCLAS 汉语词性标注集。

2019-03-01 15:49:38 462

原创 jieba源碼研讀筆記（九） - 分詞之搜索引擎模式

jieba的分詞共包含三種模式，分別是：全模式、精確模式及搜索引擎模式。其中精確模式（在jieba中為默認模式）又分為使用HMM或不使用HMM兩種模式。前面己經介紹過了全模式及精確模式，並且也看到了作為分詞函數入口的cut。本篇將介紹搜索引擎模式，對應的是jieba/__init__.py裡Tokenizer這個類別中的cut_for_search這個函數，它會調用前篇介紹的cut函數。以下是jieba文檔中對搜索引擎模式的描述：jieba.cut_for_search 方法接受两个参数：需要分词的字符串

2019-03-01 14:03:43 737

原创 jieba源碼研讀筆記（八） - 分詞函數入口cut及tokenizer函數

根據jieba文檔，jieba的分詞共包含三種模式，分別是：全模式、精確模式及搜索引擎模式。其中的精確模式又分為不使用HMM兩種模式或使用HMM（在jieba中為默認模式）兩種。所以分詞總共有四種模式可以使用。在前三篇文章：全模式，精確模式（使用動態規劃），精確模式（使用HMM維特比算法發現新詞）當中，己經看到了前三種模式，它們分別對應到：__cut_all，__cut_DAG_NO_HMM及__cut_DAG函數。本篇介紹的cut函數將作為上述分詞函數的入口，依據傳入參數的不同，來選擇要調用哪一個函數。

2019-03-01 11:59:08 748

keineahnung2345的博客