爬虫第一弹:利用Scrapy爬取1905电影网
啊啊啊!!!!写完没保存!!!!还得重新写一遍!!!!!好气啊!!!!!!
前言
AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。
通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
传统的网页(不使用 AJAX)如果需要更新内容,必须重载整个网页页面。
因此现在有很多网站都是用Ajax进行前后端数据交互的。
然而正是因为很多网站使用Ajax导致网络爬虫无法跟进。
这时就需要我们针对不同的网站定制爬虫。
AcFun 评论数据传输分析
页面分析
首先测试爬去使用Ajax传输数据的网站的效果,我们以AcFun视频为例。
打开页面http://www.acfun.tv/v/ac2860882,下图所示是当前页面是直接在浏览器打开的效果,可以看到红色框内的就是当前页面的评论。
下图是通过爬虫爬去该网页的结果,可以看到红色框内并没有评论,因为当前评论没有传过来。
寻找数据
我们现在利用Chrome浏览器的Developer Tools寻找数据。
打开原页面,在当前页面上邮件选择检查,进入到Developer Tools后选择Network。在Network中选择XHR(数据),再刷新当前页面,从左侧列