爬虫学习笔记1-了解爬虫以及Http协议

最新推荐文章于 2023-04-13 17:52:34 发布

陈弟弟

最新推荐文章于 2023-04-13 17:52:34 发布

阅读量394

点赞数 1

分类专栏：爬虫学习文章标签： python

本文链接：https://blog.csdn.net/weixin_41446786/article/details/108069888

版权

17 篇文章 3 订阅

订阅专栏

爬虫的概念：模拟浏览器，发送请求，获取响应
爬虫的作用：数据采集、软件测试、网络安全……
爬虫的分类：
通用爬虫： 搜索引擎的主要组成，作用就是将互联网的上页面整体的爬取下来之后，保存到本地
聚焦爬虫： 聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。
爬虫的流程：
1）获取一个url
2）向url发送请求，并获取响应（需要http协议）
3）如果从响应中提取url，则继续发送请求获取响应
4）如果从响应中提取数据，则将数据进行保存
爬虫遵循的协议：robot协议
定义：网络爬虫排除标准。
作用：告诉搜索引擎哪里可以爬，哪里不可以爬。

（1）http以及https的概念和区别（HTTPS比HTTP更安全，但是性能更低）

HTTP：超文本传输协议，默认端口号是80
- 超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件
- 传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
- SSL对传输的内容（超文本，也就是请求体或响应体）进行加密

（2）请求头和响应头
1）请求头

注：加粗的请求头（User-Agent、Referer、Cookie）为常用请求头，在服务器被用来进行爬虫识别的频率最高

2）响应头
在这里插入图片描述

注：爬虫只关注一个响应头字段 Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

（3）常见的响应状态码

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

（4）http请求的过程
1）在浏览器中输入一个网址时，需要将它先解析出ip地址来
2）当得到ip地址之后，浏览器以tcp的方式3次握手链接服务器
3）以tcp的方式发送http协议的请求数据给服务器
4）服务器tcp的方式回应http协议的应答数据给浏览器（渲染）

注：浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来，而爬虫是一次请求对应一个响应

关注

专栏目录