Python批量处理中文文本并解析关键词

最新推荐文章于 2024-06-16 11:04:33 发布

素影沉星

最新推荐文章于 2024-06-16 11:04:33 发布

阅读量5.4k

点赞数 5

分类专栏： Python数据处理文章标签： python ubuntu

本文链接：https://blog.csdn.net/Annabel3722/article/details/78699723

版权

本文介绍了在Ubuntu 17.10上，使用Python3.6.3和Pycharm 2017.3进行中文文本处理的方法。涉及的工具有Wordcloud（词云生成）、jieba（分词）、docx（处理docx文件）、snownlp（情感分析）、pyLDAvis和textrank4zh（关键词提取与摘要）。通过安装和导入相关模块，可以实现批量读取文本、生成词云、统计关键词频率、进行情感分析等功能。

摘要由CSDN通过智能技术生成

本文的使用环境在Ubuntu17.10、Pycharm 2017.3编辑器，以及Python3.6.3。
首先介绍几个处理文本的模块。

Wordcloud, 可以将文本中的关键词总结并输出词云
https://github.com/amueller/word_cloud
jieba，像英语文章的单词那样将中文文本分成若干个词组
docx，python处理doc、docx文本的模块
http://python-docx.readthedocs.io/en/latest/index.html
snownlp，可以对文本进行正负面情感分析取值
https://github.com/isnowfy/snownlp
pyLDAvis，直观地在默认网页显示关键词的可交互动态图
textrank4zh，可以总结关键词出现的频率、关键词、关键句
https://github.com/letiantian/TextRank4ZH

模块安装和导入

pip3 install wordcloud
pip3 install jieba
pip3 install python-docx
pip3 install snownlp
pip3 install pyLDAvis
pip3 install textRank4zh

读入文本

若是docx文本，以下为处理一个文本的代码，批量处理可用数组储存文件名再遍历

import docx
file=docx.Document("example.docx")

最低0.47元/天解锁文章

素影沉星

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
Python批量处理中文文本并解析关键词

Python批量处理中文文本并解析关键词本文的使用环境在Ubuntu17.10、Pycharm 2017.3编辑器，以及Python3.6.3。首先介绍几个处理文本的模块。Wordcloud, 可以将文本中的关键词总结并输出词云 https://github.com/amueller/word_cloudjieba，像英语文章的单词那样将中文文本分成若干个词组docx，pyth
复制链接

扫一扫