基于
Python
语言的中文分词技术的研究
祝永志
;
荆静
【期刊名称】
《通信技术》
【年
(
卷
),
期】
2019(052)007
【摘要】
Python
作为一种解释性高级编程语言
,
已经深入大数据、人工智能等
热门领域
.Python
在数据科学领域具有广泛的应用
,
比如
Python
爬虫、数据挖
掘等等
.
将连续的字序列划分为具有一定规范的词序列的过程称为分词
.
在英文中
,
空格是单词间的分界符
,
然而中文比较复杂
.
一般来说对字、句子和段落的划分比
较简单
,
但中文中词的划分没有明显的标志
,
所以对中文文本进行分词的难度较大
.
运用
Python
爬虫对网页数据进行抓取作为实验文本数据
,
使用
python
强大的
分词库
jieba
对中文文本进行分词处理
.
对分词结果分别采用
TF-IDF
算法和
TextRank
算法进行提取关键词
,
实验结果明显优于基于词频的分词算法
.
最后采
用词云的方式对关键词进行展现
,
使得分词结果一目了然
.
【总页数】
8
页
(1612-1619)
【关键词】
python;
文本分词
;jieba;
词云
;
数据可视化
【作者】
祝永志
;
荆静
【作者单位】
曲阜师范大学
信息科学与工程学院
,
山东
日照
276826;
曲阜师范
大学
信息科学与工程学院
,
山东
日照
276826
【正文语种】
中文
【中图分类】
TP312
【相关文献】
1.Python
环境下的文本分词与词云制作
[J],
严明
;
郑昌兴