美图欣赏:
一.jieba介绍
“结巴”中文分词:做最好的Python中文分词组件
“ Jieba”(中文为“ to stutter”)中文文本分割:内置为最好的Python中文单词分割模块。
二.jieba特征
支持典型分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的短语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装
paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。
支持繁体分词
支持自定义词典
jieba的github:https://github.com/fxsjy/jieba
jieba的官网:https://pypi.org/project/jieba/
三.jieba安装
命令:
import install jieba
四.代码实现
import jieba
import jieba.analyse as Jackson #取一个别名
#1 分词全模式
#全模式:把句子中所有可能的词都扫描切分,速度非常快,不能解决歧义;
text = "我热爱学习NLP,热爱学习人工智能"
#cut_all=True表示开启全模式,
#print("[1. 全模式]"+"/".join(jieba.cut(text,cut_all=True)))
Full_mode_list = jieba.cut(text,cut_all=True)
# list = []
# for full_mode in Full_mode_list:
# list.append(full_mode)
# print(list)
#join连接任意数量的字符串。以"/"作为分割符
print("[1. 全模式]"+"==".join(Full_mode_list))
#2.精确模式 用的较多(试图将句子最精确的切开,适合文本分析。)
#cut_all=False 写不写,精确模式默认为False
Full_mode_list = jieba.cut(text,cut_all=False)
print("[2. 精确模式]"+" ".join(Full_mode_list))
#3.jieba 搜索引擎模式 在精确模式的基础上,适用于搜索引擎,对长词再次切分
sousuo_list = jieba.lcut_for_search(text)
print("[3. 搜索引擎模式 ]"+"--".join(sousuo_list))
#4.繁体分词
text = "香港和台灣是中國的壹部分"
fanti_list = jieba.cut(text,cut_all=False)
print("[4. 繁体分词 ]"+" ** ".join(fanti_list))
#5. 自定义用户词典,jieba内部有自己的词典,可以有自己识别新词的能力
jieba.load_userdict("userdict.txt")
zidingyi_list = jieba.cut(text,cut_all=False)
#jieba可以动态增加词,缺点:只在当前程序起作用
jieba.add_word("高富帅")
jieba.add_word("理想主义者")
jieba.add_word("现实主义者")
jieba.add_word("有钱人")
jieba.add_word("无钱人")
print("[5. 自定义用户词典之后,繁体分词 ]"+" -- ".join(zidingyi_list))
#6 关键词的抽取
t = "马云是国家的骄傲,是民族的脊梁,是一匹骏马永不停歇," \
"在创新的浪潮中,永立潮头!有人说以后的传奇只有西方的美国比尔盖茨,东方的中国马云。" \
"而这一次上海的进博会,马云再度谱写传奇,他的智慧,他的见识,让我们惊羡。" \
"今天分享的是马云经典励志语录25句,不是你没能力,而是别人太强,早就走在你前面,想要更强," \
"只有不断的学习"
#topK是选中6个,withWeight表示权重值
keyword_list = Jackson.extract_tags(t,topK=6,withWeight=True) #返回的是List
#输出
for keyword,weight in keyword_list:
#%s是一种格式,里面放着内容
print("%s %s"%(keyword,weight))
print("textrank")
#pagerank对网页做排名
#textrank对词排名,更深一步
keywords = Jackson.textrank(t,topK=6,withWeight=True)
print(keywords)
运行结果:
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\李庆\AppData\Local\Temp\jieba.cache
Loading model cost 0.672 seconds.
[1. 全模式]我==热爱==学习==NLP==,==热爱==学习==人工==人工智能==智能
Prefix dict has been built successfully.
[2. 精确模式]我 热爱 学习 NLP , 热爱 学习 人工智能
[3. 搜索引擎模式 ]我--热爱--学习--NLP--,--热爱--学习--人工--智能--人工智能
[4. 繁体分词 ]香港 ** 和 ** 台灣 ** 是 ** 中國 ** 的 ** 壹 ** 部分
[5. 自定义用户词典之后,繁体分词 ]香港和台灣 -- 是 -- 中國 -- 的 -- 壹部分
马云 0.701547733282264
传奇 0.29555668165018867
永立 0.24919868813962265
比尔盖茨 0.23612043945094338
25 0.2255616509981132
惊羡 0.22304219076037735
textrank
[('经典', 1.0), ('博会', 0.8880339361970131), ('传奇', 0.8880255842287333), ('谱写', 0.8667851011701004), ('浪潮', 0.8572273633619661), ('脊梁', 0.8464178235019462)]
Process finished with exit code 0
————保持饥饿,保持学习
Jackson_MVP