自然语言中最好中文分词 -- jieba

最新推荐文章于 2024-07-06 11:24:09 发布

SuperBigData~

最新推荐文章于 2024-07-06 11:24:09 发布

阅读量4.1k

点赞数

分类专栏： # 一.NLP 中文自然语言处理

本文链接：https://blog.csdn.net/Jackson_mvp/article/details/105347963

版权

一.NLP 中文自然语言处理专栏收录该内容

7 篇文章 4 订阅

订阅专栏

美图欣赏：
在这里插入图片描述
一.jieba介绍

“结巴”中文分词：做最好的Python中文分词组件

“ Jieba”（中文为“ to stutter”）中文文本分割：内置为最好的Python中文单词分割模块。

二.jieba特征

支持典型分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的短语都扫描出来，速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装
paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。

支持繁体分词

支持自定义词典

jieba的github:https://github.com/fxsjy/jieba

jieba的官网：https://pypi.org/project/jieba/

三.jieba安装

命令：

import install jieba

四.代码实现

import jieba
import jieba.analyse as Jackson #取一个别名


#1 分词全模式
#全模式：把句子中所有可能的词都扫描切分，速度非常快，不能解决歧义；
text = "我热爱学习NLP,热爱学习人工智能"

#cut_all=True表示开启全模式，
#print("[1. 全模式]"+"/".join(jieba.cut(text,cut_all=True)))
Full_mode_list = jieba.cut(text,cut_all=True)
# list = []
# for full_mode in Full_mode_list:
#     list.append(full_mode)
# print(list)

#join连接任意数量的字符串。以"/"作为分割符
print("[1. 全模式]"+"==".join(Full_mode_list))

#2.精确模式 用的较多（试图将句子最精确的切开，适合文本分析。）
#cut_all=False 写不写，精确模式默认为False
Full_mode_list = jieba.cut(text,cut_all=False)
print("[2. 精确模式]"+" ".join(Full_mode_list))

#3.jieba 搜索引擎模式 在精确模式的基础上，适用于搜索引擎，对长词再次切分
sousuo_list = jieba.lcut_for_search(text)
print("[3. 搜索引擎模式 ]"+"--".join(sousuo_list))

#4.繁体分词
text = "香港和台灣是中國的壹部分"
fanti_list = jieba.cut(text,cut_all=False)
print("[4. 繁体分词 ]"+" ** ".join(fanti_list))

#5. 自定义用户词典，jieba内部有自己的词典，可以有自己识别新词的能力
jieba.load_userdict("userdict.txt")
zidingyi_list = jieba.cut(text,cut_all=False)
#jieba可以动态增加词，缺点：只在当前程序起作用
jieba.add_word("高富帅")
jieba.add_word("理想主义者")
jieba.add_word("现实主义者")
jieba.add_word("有钱人")
jieba.add_word("无钱人")
print("[5. 自定义用户词典之后，繁体分词 ]"+" -- ".join(zidingyi_list))


#6 关键词的抽取
t = "马云是国家的骄傲，是民族的脊梁，是一匹骏马永不停歇，" \
    "在创新的浪潮中，永立潮头！有人说以后的传奇只有西方的美国比尔盖茨，东方的中国马云。" \
    "而这一次上海的进博会，马云再度谱写传奇，他的智慧，他的见识，让我们惊羡。" \
    "今天分享的是马云经典励志语录25句，不是你没能力，而是别人太强，早就走在你前面，想要更强，" \
    "只有不断的学习"
#topK是选中6个，withWeight表示权重值
keyword_list = Jackson.extract_tags(t,topK=6,withWeight=True) #返回的是List
#输出
for keyword,weight in keyword_list:
    #%s是一种格式，里面放着内容
    print("%s %s"%(keyword,weight))

print("textrank")

#pagerank对网页做排名
#textrank对词排名，更深一步
keywords = Jackson.textrank(t,topK=6,withWeight=True)
print(keywords)

运行结果：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\李庆\AppData\Local\Temp\jieba.cache
Loading model cost 0.672 seconds.
[1. 全模式]我==热爱==学习==NLP==,==热爱==学习==人工==人工智能==智能
Prefix dict has been built successfully.
[2. 精确模式]我 热爱 学习 NLP , 热爱 学习 人工智能
[3. 搜索引擎模式 ]我--热爱--学习--NLP--,--热爱--学习--人工--智能--人工智能
[4. 繁体分词 ]香港 ** 和 ** 台灣 ** 是 ** 中國 ** 的 ** 壹 ** 部分
[5. 自定义用户词典之后，繁体分词 ]香港和台灣 -- 是 -- 中國 -- 的 -- 壹部分
马云 0.701547733282264
传奇 0.29555668165018867
永立 0.24919868813962265
比尔盖茨 0.23612043945094338
25 0.2255616509981132
惊羡 0.22304219076037735
textrank
[('经典', 1.0), ('博会', 0.8880339361970131), ('传奇', 0.8880255842287333), ('谱写', 0.8667851011701004), ('浪潮', 0.8572273633619661), ('脊梁', 0.8464178235019462)]

Process finished with exit code 0

               ————保持饥饿，保持学习
                   Jackson_MVP

SuperBigData~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录