python中文分词算法_基于Python语言的中文分词技术的研究

基于

Python

语言的中文分词技术的研究

祝永志

;

荆静

【期刊名称】

《通信技术》

【年

(

),

期】

2019(052)007

【摘要】

Python

作为一种解释性高级编程语言

,

已经深入大数据、人工智能等

热门领域

.Python

在数据科学领域具有广泛的应用

,

比如

Python

爬虫、数据挖

掘等等

.

将连续的字序列划分为具有一定规范的词序列的过程称为分词

.

在英文中

,

空格是单词间的分界符

,

然而中文比较复杂

.

一般来说对字、句子和段落的划分比

较简单

,

但中文中词的划分没有明显的标志

,

所以对中文文本进行分词的难度较大

.

运用

Python

爬虫对网页数据进行抓取作为实验文本数据

,

使用

python

强大的

分词库

jieba

对中文文本进行分词处理

.

对分词结果分别采用

TF-IDF

算法和

TextRank

算法进行提取关键词

,

实验结果明显优于基于词频的分词算法

.

最后采

用词云的方式对关键词进行展现

,

使得分词结果一目了然

.

【总页数】

8

(1612-1619)

【关键词】

python;

文本分词

;jieba;

词云

;

数据可视化

【作者】

祝永志

;

荆静

【作者单位】

曲阜师范大学

信息科学与工程学院

,

山东

日照

276826;

曲阜师范

大学

信息科学与工程学院

,

山东

日照

276826

【正文语种】

中文

【中图分类】

TP312

【相关文献】

1.Python

环境下的文本分词与词云制作

[J],

严明

;

郑昌兴

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值