Python 爬虫实战(1):分析豆瓣中最新电影的影评并制作词云

本文介绍了一位初学者使用Python爬虫抓取豆瓣电影《红海行动》的最新评论,并进行数据清洗,最终制作词云图的过程。通过分析网页数据,利用BeautifulSoup解析HTML,提取电影ID和名称,接着抓取评论内容,再进行数据清洗,去除标点符号和停用词,最后使用jieba分词和WordCloud生成词云。过程中遇到IP被封问题,通过调整请求头解决。
摘要由CSDN通过智能技术生成

入门Python不久,想做个小项目练练手,碰巧最近一部国产电影《红海行动》反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析过程也参考了很多其他博主的博文,原凉我个渣渣。。。)

操作环境:Python 3.6、Pycharm 2017.2.3

一、抓取网页数据

第一步就是要对你所要抓取的网页进行访问,获取网页内容,Python用的是urllib库,先去豆瓣电影的正在上映那里看看
这里写图片描述
看到没有,那部《红海行动》正是我们要抓取的,它的网址是 https://movie.douban.com/cinema/nowplaying/guangzhou/ ,先抓取这个网页先。
这里写图片描述
第二步,没错,看到那个网页上还有其他很多电影,那么我们怎么抓取我们想要的那部的,接下来就要解析这个网页了,借助chorme的开发工具,按F12,找到我们要找的那部电影,发现我们需要的数据在这个标签
这里写图片描述
从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息,需要用到find_all来读取HTML中的内容,代码如下
这里写图片描述
其中nowplaying_movie_list 是一个列表,在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下
这里写图片描述
其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用pr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值