2.6 HTTP信息头

HTTP信息头,也称为头字段或者首部,是构成HTTP报文的要素之一,具有传递额外重要信息的作用。HTTP信息头通常包括4类,通用头、请求头、响应头和实体头。其中,请求头和响应头分别只在请求信息和响应信息中出现,而通用头和实体头在请求信息和响应信息中都可出现。只有在消息中包含实体数据时,实体头才会出现。HTTP信息头是由头字段和字段值组成的,如下图所示。
在这里插入图片描述
1.通用头
通用头既可以在请求信息中出现也可以在响应信息中出现,其提供了与报文相关的基本信息。下面列出了HTTP通用头的字段名称及其功能。
Cache-Control:请求和响应遵循的缓存机制。
Connection:客户端和服务器指定与请求或响应连接有关的选项,例如是否需要持久连接。
Date:创建HTTP报文的时间,即信息发送时间。
Pragma:包含用来实现特定的指令,通常和no-cache使用。
Trailer:表明以chunked编码传输的报文实体数据尾部存在的字段。
Transfer-Encoding:规定了传输报文实体数据采用的编码方法。
Upgrade:检测HTTP协议,允许服务器指定一种新的协议。
Via:追踪客户端与服务器之间的请求报文和响应报文的传输路径。
Warning:告知用户与缓存相关的警告。

2.请求头
请求头是从客户端向服务器发送请求报文时所用的字段。服务器根据请求的头信息,为客户端提供响应。在网络爬虫采集数据时,为了更好地模拟浏览器访问服务器,经常需要设置一些请求头信息,比如添加多个不同的User-Agent。下面列出了HTTP请求头的字段名称及其功能。
Accept:指定客户端可以处理数据的类型。
Accept-Charset:指定客户端可以接收的字符集。
Accept-Encoding:指定浏览器能够进行解码的数据编码格式。
Accept-Language:指定浏览器可接收的语言种类。
Cookie:客户端发送请求时,会把保存在该请求域名下的所有cookie值一起发送给服务器。
Host:指定请求的服务器的域名和端口号,不包括协议。
Origin:指定请求的服务器名称,包括协议和域名。
Referer:告知服务器请求的原始资源的URL,包括协议、域名和端口等信息。
Upgrade-Insecure-Request:向服务器发送一个信号,表示客户对加密和认证响应的偏好。
User-Agent:发起请求的应有程序名称。

3.响应头
响应头是从服务器端向客户端发送响应报文时所用的字段。下面列出了HTTP响应头的字段名称及其功能。
Accept-Ranges:指定服务器对资源请求的可接受范围类型,字段的值定义了范围类型的单位。
Age:服务器产生响应经过的时间,单位是秒,为非负整数,主要用于缓存。
Set-Cookie:用来由服务器向客户端发送cookie。
Server:指明服务器软件以及版本号。
Vary:告知代理是使用缓存来响应还是从源服务器中重新请求资源。

4.实体头
请求报文和响应报文中经常包含一些实体数据,如浏览器采用POST提交的表单数据、服务器返回给浏览器的网页数据。实体头提供了大量的有关实体数据的信息,包括实体数据的类型、长度和压缩方法等。下面列出了HTTP实体头的字段名称及其功能。
Allow:列出资源所支持的HTTP方法集合。
Content-Encoding:告知客户端服务器对实体数据的编码方式。
Content-Language:告知客户端实体数据使用的语言类型。
Content-Length:实体数据的长度。
Content-Location:实体数据的资源位置。
Content-Range:当前传输的实体数据在整个资源中的字节范围。
Content-Type:实体数据的类型,网络爬虫中经常解析的数据类型是HTML、XML和JSON。
Expires:实体数据的有效期。
Last-Modified:实体数据上次被修改的日期以及时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值