本文爬虫的步骤:
使用Selenium库的webdriver进行网页元素定位和信息获取;
使用BeautifulSoup库进行数据的提取;
使用Pandas库进行数据的存储。
后台回复python爬虫可获取PPT和影评数据。
《流浪地球》大年初一在内陆上映,也快一个月了。上映以来,票房一路高升。前几日,《流浪地球》已经超过40亿了,跃居中国电影票房总榜第二了。对于这部电影,好评也有,争议也有,微博上热点也是不断。本来之前就想自己用Python爬虫爬取一下豆瓣影评,再做做数据分析。不过这几天都没有来得及弄。这电影都要下了,我才来蹭这个热点,这个热度估计是蹭不上了。
这个周末主要写了一部分爬虫代码爬取了豆瓣影评,先在公众号上记录下来。下周如果有时间的话,会接着使用爬取到的影评数据,进行简单的数据处理和数据分析。
这部分Python爬虫主要使用了两个库,Selenium库和BeautifulSoup库。
在进行爬虫之前,需要先了解到几个概念,微信后台回复python爬虫,可获取到我一年多前学习爬虫时做的一份PPT分享(其实PPT比较简单,更具体的教程可自行百度)。目前爬虫程序还在继续,现在保存了60000条豆瓣影评数据,后台一并分享。
PPT截图
爬取的数据存储格式如下:
想更深入学习爬虫的,推荐一本入门教程:《Python网络数据采集》,内容详尽,而且简单易懂。
以下为爬虫的简单说明和代码。
其实一般的爬虫流程很简单:
1、发送http请求,获取网络源码
一般这一部分调用urllib.request库就好。由于本文爬取豆瓣影评数据要登录个人豆瓣账号,所以我改用Selenium库的webdriver来调用浏览器访问豆瓣网进行数据的抓取。注:在此之前,需要自行下载驱动webdriver。本文使用的浏览器是chrome,不同版本对应的webdriver可在以下网址下载:
http://chromedriver.storage.googleapis.com/index.html
或者
https://npm.taobao.org/mirrors/chromedriver
2、网页解析
对于网页解析,需要了解HTML这个概念,同时需要知道:标签(Tag)、属性(Attribute)。使用Python进行页面解析和数据提取