python词云分析难吗_【python数据挖掘】使用词云分析来分析豆瓣影评数据

这篇博客介绍了如何使用Python进行词云分析,特别是针对豆瓣影评数据。首先从CSV文件中读取数据,利用jieba进行分词,接着设置WordCloud参数,结合背景图像生成词云,并保存为图片。通过这种方法,可以直观地展示和理解评论中的高频词汇。
摘要由CSDN通过智能技术生成

概述:

制作词云的步骤:

1、从文件中读取数据

2、根据数据追加在一个字符串里面,然后用jieba分词器将评论分开

3、设置WordCloud词云参数

4、保存最后的结果

第一步:引入依赖库

# 1、表格库

import csv

# 2、jieba分词器

import jieba

# 3、算法运算库

import numpy

# 4、图像库

from PIL import Image

# 5、词云库

from wordcloud import WordCloud

第二步:读取数据

stars = ("很差","较差","还行","推荐","力荐")

comments = []

with open("files/douban.csv","r",encoding="utf-8") as file:

reader = csv.reader(file)

for i in reader:

if i[1] not in stars:

pass

else:

comments.append(i)

file.close()

第三步:解析数据并保存

str = ""

for i in data:

str+=i[2]

cutWord = " ".join(jieba.cut(str))

bgImg = numpy.array(Image.open("files/a.jpg"))

cloud = WordCloud(

font_path="C:\Windows\Fonts\STZHONGS.TTF",

background_color="white",

mask=bgImg

).generate(cutWord)

cloud.to_file("ciyun.png")

效果图:

模型:

3524a058102454338d153e8fe3095bf1.png

效果:

1072675972fccb41b6875479868122d6.png

源代码:

# 1、表格库

import csv

# 2、jieba分词器,将一句话的词语分离出来

# 1)、控制台输入:pip install jieba

# 2)、左上角 file-->settings--->项目

# 3)、清华园下载方式(在控制台)

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

# 阿里

# pip install jieba -i http://mirrors.aliyun.com/pypi/simple/

import jieba

# 3、算法运算库

# 控制台输入:pip install numpy

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy

import numpy

# 4、图像库

# 控制台输入:pip install pillow

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

from PIL import Image

# 5、词云库

# 控制台输入:pip install WordCloud

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple WordCloud

from wordcloud import WordCloud

# 定义函数,将数据从表格里读取出来

def getDataFromCsv():

# 设置星级等级

stars = ("很差","较差","还行","推荐","力荐")

# 设置空列表,装从表格里面读出来的所有数据

comments = []

# 打开表格,"r"读取模式 读取数据

with open("files/douban.csv","r",encoding="utf-8") as file:

# 表格操作读数据

reader = csv.reader(file)

# 遍历表格里得到所有数据 [用户名,星级,评论]

for i in reader:

# 如果没有星级

if i[1] not in stars:

# 数据无效,忽略不处理

pass

else:

# 数据有效,装入数组

comments.append(i)

# print(comments)

file.close()

# 将装有数据的列表返回出来

return comments

# 定义函数,将解析的评论做成词云

def getWordCloud():

# 调用函数:得到表格中所有的数据

data = getDataFromCsv()

# 定义空的字符串,把所有的评论装进来

str = ""

# 遍历所有的数据

for i in data:

# [用户名, 星级, 评论]

str+=i[2]

# print(str)

# 通过jieba分词器将评论里面的词语用空格分离出来

cutWord = " ".join(jieba.cut(str))

# print(cutWord)

# 读取图片模型

bgImg = numpy.array(Image.open("files/a.jpg"))

# 准备词云参数

cloud = WordCloud(

# 文字的路径:本地的系统文件路径

font_path="C:\Windows\Fonts\STZHONGS.TTF",

# 生成词云的图片背景

background_color="white",

# 参考图片(参数,没有引号)

mask=bgImg

).generate(cutWord)

# 将做成的结果生成图片

cloud.to_file("ciyun.png")

作者

用Python玩转词云

第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 imp ...

python实现使用词云展示图片

记录瞬间 首先,要安装一些第三方包 pip install scipyCollecting scipy Downloading https://files.pythonhosted.org/packa ...

python 制作wordcloud词云

pip install wordcloud 需要用到numpy  pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...

python WordCloud 实现词云

简单示例 from matplotlib import pyplot as plt from wordcloud import WordCloud filename = "text.txt& ...

python系列之(3)爬取豆瓣图书数据

上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...

Python爬虫之抓取豆瓣影评数据

脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

【Python】生成词云

import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba text_from_file_with_apa ...

windows下python 正确安装词云包wordcloud的方法

安装wordcloud的时候果然还是出现了问题,试了网上说的好多办法,最后找到了一种成功率高的,可以优先尝试一下 下载.whl文件http://www.lfd.uci.edu/~gohlke/pyth ...

【python数据挖掘】爬取豆瓣影评数据

概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

随机推荐

JQuery中的html(),text(),val()区别

jQuery中.html()用为读取和修改元素的HTML标签,.text()用来读取或修改元素的纯文本内容,.val()用来读取或修改表单元素的value值. 1.HTML html():取得第一个匹 ...

destoon实现调用热门关键字的方法

本文所述的destoon调用热门关键字的方法是根据数据库里面的保存的搜索的关键字来显示的.每个模块下面都有各自的关键字下面是调用的标签: ? 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值