前言
我们知道python爬虫,一般小爬虫requests+beautifulSoup,分布式爬虫用Scrapy,我们一般用requests来的方便,但是有的时候你会发现有些网页信息(比如用户评论),用requests是无法获取的,这些javascript管理的动态内容怎样提取?
这就引入我们今天的主角selenium。
AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是一种异步加载技术。
在前面文章python爬取CSDN博客并用WordCloud词云分析中,要提取的内容是直接从网页的source code里拿到的。但是一些Ajax动态内容是在source code找不到的,就要找合适的程序库把异步或动态加载的内容加载上来,交给本项目的提取器进行提取。
python可以使用selenium执行javascript,selenium可以让浏览器自动加载页面,获取需要的数据。selenium自己不带浏览器,可以使用第三方浏览器如Firefox,Chrome等,也可以使用headless浏览器如PhantomJS在后台执行。
用selenium爬取应用宝用户评论
- 首先我们需要下载<