Python：Python 中 jieba 库的使用（中文分词）

最新推荐文章于 2024-05-24 10:02:22 发布

chnyac

最新推荐文章于 2024-05-24 10:02:22 发布

阅读量2.9k

点赞数

分类专栏： Python 文章标签： Python jieba 中文分词使用

Python 专栏收录该内容

41 篇文章 0 订阅

订阅专栏

==================================================================

一、说明：

1、支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

2、支持繁体分词

3、支持自定义词典

4、MIT 授权协议

-----------------------------------------------------------------------------------------------------------------

二、主功能：

1、jieba.cut 方法接受三个输入参数:

需要分词的字符串；

cut_all 参数用来控制是否采用全模式，否则为精确模式；

HMM 参数用来控制是否使用 HMM 模型。

2、jieba.cut_for_search 方法接受两个参数（该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细）：

需要分词的字符串；

是否使用 HMM 模型；

PS：待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。

注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator；

或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list；

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。

jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

-----------------------------------------------------------------------------------------------------------------

三、添加自定义字典：

1、用法：

jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径；

2、词典格式：

和 dict.txt 一样，一个词占一行；

每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒；

file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码；

词频省略时使用自动计算的能保证分出该词的词频。

-----------------------------------------------------------------------------------------------------------------

四、调整词典：

1、使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典；

2、使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来；

PS：注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

-----------------------------------------------------------------------------------------------------------------

五、基于 TF-IDF 算法的关键词抽取：

1、导入：import jieba.analyse

2、jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本；

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20；

withWeight 为是否一并返回关键词权重值，默认值为 False；

allowPOS 仅包括指定词性的词，默认值为空，即不筛选；

3、jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件；

-----------------------------------------------------------------------------------------------------------------

六、基于 TextRank 算法的关键词抽取

1、jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) ；

2、直接使用，接口相同，注意默认过滤词性；

3、jieba.analyse.TextRank() 新建自定义 TextRank 实例

-----------------------------------------------------------------------------------------------------------------

未完待续 . . . . . .

chnyac

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录