自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 jieba源碼研讀筆記(十八) - 關鍵詞提取之TF-IDF使用示例

jieba中除了給出TF-IDF算法實現外,還提供了它的使用示例。 使用示例在test這個資料夾底下。 extract_tags.py檔是關鍵詞提取的使用示例。

2019-03-05 15:23:23 418

原创 jieba源碼研讀筆記(十七) - 關鍵詞提取之TF-IDF

在前篇介紹了jieba/analyse/tfidf.py的架構,本篇將介紹該檔案中的TFIDF類別。TFIDF類別的extract_tags函數負責實現核心算法。透過allowPOS這個參數可以選擇要使用一般的tokenizer或是用於詞性標注的tokenizer。參考維基百科中的tf-idf頁面:TF代表的是term frequency,即文檔中各詞彙出現的頻率。IDF代表的是inverse document frequency,代表詞彙在各文檔出現頻率倒數的對數值(以10為底)。而TF-IDF值則

2019-03-05 12:03:28 1691

原创 jieba源碼研讀筆記(十六) - 關鍵詞提取之tfidf.py檔初探

jieba支持使用兩種算法做關鍵詞提取,包括TF-IDF及TextRank。 其中TF-IDF算法主要是在jieba/analyse/tfidf.py這個檔案中完成。 本篇將會介紹tfidf.py這個檔案的架構。

2019-03-05 11:10:44 956

原创 jieba源碼研讀筆記(十五) - 關鍵詞提取函數入口

jieba的關鍵詞提取功能主要由jieba/analyse這個模組實現。jieba支援兩種關鍵詞提取的算法,包括TF-IDF及TextRank兩種。在jieba/analyse/__init__.py中,會調用TFIDF及TextRank這兩個檔案,並利用它們定義一些全局變數及函數。

2019-03-05 09:11:24 213

原创 jieba源碼研讀筆記(十四) - 詞性標注函數入口

在前面兩篇中介紹了__cut_DAG_NO_HMM及__cut_DAG函數。 本篇介紹的__cut_internal函數是__cut_DAG及__cut_DAG_NO_HMM這兩個函數的入口,它的參數HMM可以選擇要使用哪一個。 本篇還會介紹_lcut_internal,_lcut_internal_no_hmm,cut及lcut,它們是__cut_internal的wrapper,讓它變得更易用。

2019-03-04 16:46:28 327

原创 jieba源碼研讀筆記(十三) - 詞性標注(使用HMM維特比算法發現新詞)

jieba/posseg/__init__.py裡的__cut_DAG負責的是使用了HMM的詞性標注。__cut_DAG,__cut_detail,__cut負責詞性標注的核心算法,其中__cut函數還會呼叫viterbi.py裡的viterbi這個函數。而cut及__cut_internal則是__cut_DAG的wrapper,隱藏了一些細節,讓它們變得更容易使用。本篇將由內而外介紹,從viterbi到__cut,__cut_detail直到__cut_DAG函數。

2019-03-04 15:43:49 539

原创 jieba源碼研讀筆記(十二) - 詞性標注(使用DAG有向無環圖+動態規劃)

在前篇中看到了POSTokenizer的詞性標注核心函數包括:__cut_DAG_NO_HMM及__cut,__cut_detail,__cut_DAG。 恰如其名,__cut_DAG_NO_HMM的功能是不使用HMM的詞性標注。 其它三個函數則會在使用HMM的模式中被使用。 本篇介紹的重點是不使用HMM的詞性標注。

2019-03-01 19:29:19 296

原创 jieba源碼研讀筆記(十一) - 詞性標注之POSTokenizer初探

前篇看了posseg/__init__.py檔的大架構,這裡將繼續介紹檔案中的POSTokenizer這個類別。 本篇僅介紹POSTokenizer類別初始化及載入字典的部份,核心函數及其wrapper將會在後續的文章裡介紹。

2019-03-01 16:30:29 825

原创 jieba源碼研讀筆記(十) - 詞性標注功能初探

jieba除了分詞,還包括了詞性標注及關鍵詞提取的功能。 詞性標注的功能是在posseg這個模組中實現。 以下是jieba文檔中對詞性標注功能的描述: 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法 關於ictclas,可參考ICTCLAS 汉语词性标注集。

2019-03-01 15:49:38 462

原创 jieba源碼研讀筆記(九) - 分詞之搜索引擎模式

jieba的分詞共包含三種模式,分別是:全模式、精確模式及搜索引擎模式。其中精確模式(在jieba中為默認模式)又分為使用HMM或不使用HMM兩種模式。前面己經介紹過了全模式及精確模式,並且也看到了作為分詞函數入口的cut。本篇將介紹搜索引擎模式,對應的是jieba/__init__.py裡Tokenizer這個類別中的cut_for_search這個函數,它會調用前篇介紹的cut函數。以下是jieba文檔中對搜索引擎模式的描述:jieba.cut_for_search 方法接受两个参数:需要分词的字符串

2019-03-01 14:03:43 737

原创 jieba源碼研讀筆記(八) - 分詞函數入口cut及tokenizer函數

根據jieba文檔,jieba的分詞共包含三種模式,分別是:全模式、精確模式及搜索引擎模式。其中的精確模式又分為不使用HMM兩種模式或使用HMM(在jieba中為默認模式)兩種。所以分詞總共有四種模式可以使用。 在前三篇文章:全模式,精確模式(使用動態規劃),精確模式(使用HMM維特比算法發現新詞)當中,己經看到了前三種模式,它們分別對應到:__cut_all,__cut_DAG_NO_HMM及__cut_DAG函數。本篇介紹的cut函數將作為上述分詞函數的入口,依據傳入參數的不同,來選擇要調用哪一個函數。

2019-03-01 11:59:08 748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除