Scrapy 爬虫框架学习 DAY2

昨天我们初识Scrapy爬虫框架,今天来具体聊聊爬虫的具体过程。


我们按照步骤来一一描述:

1、发送请求

我们需要对我们要爬的第一个URL发送我们的请求,以获取其返回的响应。在这个过程中,我们往往关注返回内容的某一部分,而不是全部。

比如:

(1)请求方法:常见的方法有GET方法和POST方法。

GET:从指定的资源中请求数据,查询字符串放在URL中发送。

POST:向指定资源提交要被处理的数据,查询字符串放在请求体中发送。

(2)请求URL:指的是 目标网页的 统一资源定位符。

(3)必要的请求信息,如:

         1、User-Agent:包含发出请求的用户的信息,设置User-Agent常用于反爬虫的网页。这个时候我们需要伪装自己,是一个浏览器,正常在访问网页。

         2、Cookie:包含先前请求的内容,设置Cookie来模拟登录。

2、获取响应

我们需要获取URL返回的响应,从而提取我们需要的信息。

(1)状态码:一些返回的状态,如:404等等。

(2)响应数据:我们需要的信息部分。

3、解析网页

解析网页一般有两件事:1、提取链接 2、提取资源

(1)提取链接

           我们希望获取待解析网页上的其他网页的链接,网络爬虫需要给这些链接发送请求,直到全部完成。

(2)提取资源

          常见的资源有:

              1、文本类:HTML、JSON;

              2、图片:JPG,PNG;

              3、视频:AVI等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不安分实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值