python 可以用excel做词云图嘛_python绘制中文词云图

这篇博客介绍了如何利用Python的openpyxl、jieba和wordcloud库从Excel文件中读取《都挺好》电视剧弹幕数据,进行中文分词并生成词云图。主要步骤包括:读取Excel文件,使用jieba进行精准分词,过滤停用词,最后用wordcloud绘制词云图。过程中还解决了因数字导致的分词错误和词云图的参数调整问题。
摘要由CSDN通过智能技术生成

1. 明确任务

最近学习过程中看到很多分析报告中都有运用到可视化的词云,也有看到五花八门的工具教程,刚好有一份《都挺好》电视剧的弹幕源数据。便决定用这份数据尝试使用python绘制词云。

任务内容1. 在python中读取excel文件(《都挺好》弹幕源数据.xlsx)提取出弹幕内容

2. 对弹幕内容文本进行结巴分词,设置并过滤掉停用词

3. 使用wordcloud 将分词得到的词汇统计绘制词云图

涉及难点1. 读写excel文件

2. jieba 中文分词

3. wordcloud 词云展示库

2. 具体操作

2.1 安装相应的第三方库

本次练习需要使用到的库包括读取excel文件的openpyxl(xlwt、xlrd、pandas),进行分词的jieba,以及进行词云图绘制的numpy、matplotlib、wordcloud。

因为不确定在此前安装过哪些库,因此先使用pip list查看已经安装好的库文件。查询之后发现只有wordcloud和openpyxl没有安装,分别使用pip install openpyxl和pip install wordcloud 即可安装。

2.2 读写文件

读写文件在之前了解过 with open 的方法,用于读写txt,csv文件。但是若要读写excel文件则需要使用特定的库。例如 openpyxl、xlwt/wlrd 以及pandas这几种第三方库来读写。本次使用的是openpyxl来进行的文件读写。

相关部分代码:import openpyxl #此处使用的是openpyxl读取文件,此外还有 xlrd,pandas 读取文件的方式(有待补充)

filename=r'F:\数据分析练手\都挺好-弹幕源数据.x

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值