电影评论词云分析

本文介绍如何从豆瓣电影爬取评论并进行词云分析。首先分析网站源码,利用电影名称和ID获取评论。接着清洗数据,去除表情和特殊字符,最后使用特定模块制作词云,展示评论高频词汇。
摘要由CSDN通过智能技术生成

需求:将豆瓣电影的评论爬取出来,用词云的方式对其进行分析
步骤分析:
1). 分析网站的源码
2). 通过url获取电影名和电影id
3). 获取指定的电影的评论
4). 数据的清洗,去除一些不需要的信息
5). 进行词云的分析

  1. 分析网站的源码
    通过源码分析,豆瓣电影是靠电影名称和电影的id来区分每个电影的,想要获取各个电影的影评,需要先获取上面两个信息
    比如说《宝贝儿》这部电影,它的id就是:27039069
    在这里插入图片描述
    通过不同的id号,来访问不同的电影影评

  2. 通过url获取电影名和电影id

import requests
from bs4 import BeautifulSoup
url='https://movie.douban.com/cinema/nowplaying/xian/'
# 1)获取页面信息
response=requests.get(url)
content=response.text
# print(content)
# 2)分析页面,获取id和电影名
soup=BeautifulSoup(content,'html.parser')
# 先找到所有的电影信息对应的li标签
nowplaying_movie_list=soup.find_all('li',class_='list-item')
# 存储所有的电影信息(名称和id)
movies_info=[]
for item
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值