Python 爬虫实战（1）：分析豆瓣中最新电影的影评并制作词云

本文链接：https://blog.csdn.net/fat_summer/article/details/79400571

本文介绍了一位初学者使用Python爬虫抓取豆瓣电影《红海行动》的最新评论，并进行数据清洗，最终制作词云图的过程。通过分析网页数据，利用BeautifulSoup解析HTML，提取电影ID和名称，接着抓取评论内容，再进行数据清洗，去除标点符号和停用词，最后使用jieba分词和WordCloud生成词云。过程中遇到IP被封问题，通过调整请求头解决。

摘要由CSDN通过智能技术生成

入门Python不久，想做个小项目练练手，碰巧最近一部国产电影《红海行动》反响不错，便萌生想法去抓取一下它最新的评论，并制作词云，来看看网页对这部电影的一些评价，接下来就是开始分析啦（分析过程也参考了很多其他博主的博文，原凉我个渣渣。。。）

操作环境：Python 3.6、Pycharm 2017.2.3

一、抓取网页数据

第一步就是要对你所要抓取的网页进行访问，获取网页内容，Python用的是urllib库，先去豆瓣电影的正在上映那里看看
这里写图片描述
看到没有，那部《红海行动》正是我们要抓取的，它的网址是 https://movie.douban.com/cinema/nowplaying/guangzhou/ ，先抓取这个网页先。

第二步，没错，看到那个网页上还有其他很多电影，那么我们怎么抓取我们想要的那部的，接下来就要解析这个网页了，借助chorme的开发工具,按F12,找到我们要找的那部电影，发现我们需要的数据在这个标签
这里写图片描述
从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据，里面有电影的名称、评分、主演等信息，需要用到find_all来读取HTML中的内容，代码如下

其中nowplaying_movie_list 是一个列表，在上图中可以看到data-subject属性里面放了电影的id号码，而在img标签的alt属性里面放了电影的名字，因此我们就通过这两个属性来得到电影的id和名称。（注：打开电影短评的网页时需要用到电影的id，所以需要对它进行解析），编写代码如下
这里写图片描述
其中列表nowplaying_list中就存放了最新电影的id和名称，可以使用pr