自然语言处理--jieba使用

最新推荐文章于 2022-07-14 20:57:38 发布

qxdoit

最新推荐文章于 2022-07-14 20:57:38 发布

阅读量466

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qxdoit/article/details/80100934

版权

自然语言处理专栏收录该内容

13 篇文章 0 订阅

订阅专栏

进行中文自然语言处理首先需要对文本进行分词。

1.添加用户自定义词典（对专有名词等）

import jieba
jieba.load_userdict('drop.txt')
seq_list = jieba.lcut('小明毕业于中国科学院大学，然后在哈佛大学深造，研究自然语言处理')
print(seq_list)

运行结果：

2.关键词提取

基于TF-IDF的关键词的提取

lines = open('words/c1.txt','rb').read()
# lines = lines.decode('utf-8')
print(analyse.extract_tags(lines,topK=10,withWeight=True))

运行结果：

基于TextRank算法的关键词提取

jieba.analyse.set_stop_words('drop.txt')
print(analyse.extract_tags(lines,topK=10,withWeight=True))
print(analyse.textrank(lines,topK=10,withWeight=True))

词性标记

运行结果：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qxdoit

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理--jieba使用

进行中文自然语言处理首先需要对文本进行分词。1.添加用户自定义词典（对专有名词等）import jiebajieba.load_userdict('drop.txt')seq_list = jieba.lcut('小明毕业于中国科学院大学，然后在哈佛大学深造，研究自然语言处理')print(seq_list)运行结果：2.关键词提取基于TF-IDF的关键词的提取lines = open('w...
复制链接

扫一扫