爬虫第二弹——隐网爬虫指南,AcFun评论爬取教程

爬虫第一弹:利用Scrapy爬取1905电影网

啊啊啊!!!!写完没保存!!!!还得重新写一遍!!!!!好气啊!!!!!!

前言

AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。
通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
传统的网页(不使用 AJAX)如果需要更新内容,必须重载整个网页页面。
因此现在有很多网站都是用Ajax进行前后端数据交互的。

然而正是因为很多网站使用Ajax导致网络爬虫无法跟进。
这时就需要我们针对不同的网站定制爬虫。

AcFun 评论数据传输分析

页面分析

首先测试爬去使用Ajax传输数据的网站的效果,我们以AcFun视频为例。

打开页面http://www.acfun.tv/v/ac2860882,下图所示是当前页面是直接在浏览器打开的效果,可以看到红色框内的就是当前页面的评论。

这里写图片描述

下图是通过爬虫爬去该网页的结果,可以看到红色框内并没有评论,因为当前评论没有传过来。
这里写图片描述

寻找数据

我们现在利用Chrome浏览器的Developer Tools寻找数据。
打开原页面,在当前页面上邮件选择检查,进入到Developer Tools后选择Network。在Network中选择XHR(数据),再刷新当前页面,从左侧列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值