从头学习爬虫(一)----介绍

本文主要介绍下爬虫。

爬虫

我们常说爬虫其实就是一堆的http(s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议,这里暂不考虑。

  1. url
  2. 请求header、body
  3. 响应herder、内容
URL

爬虫开始运行时需要一个初始url,然后会根据爬取到的html文章,解析里面的链接,然后继续爬取,这就像一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,一般都会指定一个爬取深度(Depth)。

请求

  1. request
  2. 重点:
  3. 爬虫是靠一个个请求去模拟人为操作或者ajax,实现数据的获取。

浏览器

  1. 重点:

你可以把浏览器想成请求和响应的集合体,每一个页面都是所依赖的一个个请求通过浏览器渲染构成的。


总结

总有人一直在重复浏览器操作却不知道浏览器是如何加载资源形成一个页面展示给你的。

欢迎加群313557283~

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值