昨天我们初识Scrapy爬虫框架,今天来具体聊聊爬虫的具体过程。
我们按照步骤来一一描述:
1、发送请求
我们需要对我们要爬的第一个URL发送我们的请求,以获取其返回的响应。在这个过程中,我们往往关注返回内容的某一部分,而不是全部。
比如:
(1)请求方法:常见的方法有GET方法和POST方法。
GET:从指定的资源中请求数据,查询字符串放在URL中发送。
POST:向指定资源提交要被处理的数据,查询字符串放在请求体中发送。
(2)请求URL:指的是 目标网页的 统一资源定位符。
(3)必要的请求信息,如:
1、User-Agent:包含发出请求的用户的信息,设置User-Agent常用于反爬虫的网页。这个时候我们需要伪装自己,是一个浏览器,正常在访问网页。
2、Cookie:包含先前请求的内容,设置Cookie来模拟登录。
2、获取响应
我们需要获取URL返回的响应,从而提取我们需要的信息。
(1)状态码:一些返回的状态,如:404等等。
(2)响应数据:我们需要的信息部分。
3、解析网页
解析网页一般有两件事:1、提取链接 2、提取资源
(1)提取链接
我们希望获取待解析网页上的其他网页的链接,网络爬虫需要给这些链接发送请求,直到全部完成。
(2)提取资源
常见的资源有:
1、文本类:HTML、JSON;
2、图片:JPG,PNG;
3、视频:AVI等。