爬虫中的HTTP协议

首先我们来提一个问题

1.什么是http和https协议呢?

http:超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布 式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。
https:是http协议的加密版本。在http下加入了ssl层

2.http工作原理

HTTP协议定义Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面 传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求 报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响 应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

http请求/响应的步骤:

  1. 客户端连接到Web服务器

  2. 发送HTTP请求

  3. 服务器接受请求并返回HTTP响应

  4. 释放连接TCP连接

  5. 客户端浏览器解析HTML内容

3.http状态码

状态代码的第一个数字代表当前响应的类型:

1.xx消息——请求已被服务器接收,继续处理
2.xx成功——请求已成功被服务器接收、理解、并接受
3.xx重定向——需要后续操作才能完成这一请求
4.xx请求错误——请求含有词法错误或者无法被执行
5.xx服务器错误——服务器在处理某个正确请求时发生错误

URL是什么呢?

超文本传输协议(HTTP)的统一资源定位符将从因特网获取信息的五个基本元素包括在一 个简单的地址中:
.传送协议。
.层级URL标记符号(为[//],固定不变)
.访问资源需要的凭证信息(可省略)
.服务器。(通常为域名,有时为IP地址)
.端口号。(以数字方式表示,若为HTTP的默认值“:80”可省略)
路径。(以“/”字符区别路径中的每一个目录名称)
查询。(GET模式的窗体参数,以“?”字符为起点,每个参数以“&”隔开,再 以“=”分开参数名称与数据,通常以UTF8的URL编码,避开字符冲突的问题) ∙ 片段。以“#”字符为起点

那么我们以http://www.luffycity.com:80/news/index.html?id=250&page=1 为例, 其中:
http,是协议;

www.luffycity.com,是服务器;
80,是服务器上的网络端口号;
/news/index.html,是路径;
?id=250&page=1,是查询。

好喽,我们下期再见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值