本文主要介绍下爬虫。
我们常说爬虫其实就是一堆的http(s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议,这里暂不考虑。
- url
- 请求header、body
- 响应herder、内容
URL
爬虫开始运行时需要一个初始url,然后会根据爬取到的html文章,解析里面的链接,然后继续爬取,这就像一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,一般都会指定一个爬取深度(Depth)。
- request
- 重点:
- 爬虫是靠一个个请求去模拟人为操作或者ajax,实现数据的获取。
- 重点:
你可以把浏览器想成请求和响应的集合体,每一个页面都是所依赖的一个个请求通过浏览器渲染构成的。
总结
总有人一直在重复浏览器操作却不知道浏览器是如何加载资源形成一个页面展示给你的。
欢迎加群313557283~