爬虫cookie过期_爬虫基础(一)--HTTP原理-HTTP请求过程

本文详细解析了HTTP请求的过程,从在浏览器中输入URL开始,包括GET和POST请求的区别,请求头和响应头的重要字段,以及响应状态码的含义。重点介绍了请求的四个组成部分:请求方法、请求URL、请求头和请求体,以及响应头和响应体的内容。通过理解这些概念,读者可以更好地理解网页请求和服务器响应的工作原理。
  1. HTTP请求过程

在浏览器中输入URL,然后回车,即可在浏览器看到网页内容,这个过程浏览器向服务器发送一个请求,网站服务器收到请求进行处理和分析,然后返回对应的响应,接着传给浏览器。

可以通过在网页右键选择【检测】查看网页请求背后的信息

7e718fb2cf4417d8c2b06b7e38ea8ef9.png

Name: 请求的名称,通常是URL一部分

Status:响应状态码

Type:请求的文档类型,document是HTML类型

Size:请求资源的大小

Time:发起请求到响应的时间

点击http://www.baidu.com条目,即可看到详细信息

包含General,响应头,请求头。General包含请求URL,请求方法,响应状态码

2. 请求

由客户端向服务器发出的请求包含四部分:请求方法、请求URL、请求头,请求体

1)请求方法

请求方法包含:

a. GET:请求页面,返回页面内容

b. POST:大多用于提交表单,数据放在请求体中

c. HEAD:请求页面,用于获取报头

d. PUT: 客户端向服务器发送数据替代文档中内容

e. DELETE:删除指定服务器页面

f. TRACE:回显服务器接收到的请求

g.CONNECT:让服务器代替客户端访问其他网页

h. OPTIONS:允许客户端查看服务器性能

其中GET和POST请求较普遍,区别在于:1)PUT请求的参数包含在URL里,而POST请求的数据不包含在URL中,而是放在请求体中,以表单的形式发送。如登陆网页前需要输入用户名密码,数据会以表单的形式发送,而不是直接显示在URL中。2)PUT请求的数据最大1024个字节,而POST请求的数据没有限制。。

2)请求的网址

请求的网址即URL

3)请求头

请求头用于说明服务器要使用的附加信息,比较重要的有cookie,referer,User-Agent

Accept:指定客户端可接收哪些类型的信息,html/text

Accept-language:客户端可接收的语言类型(不一定需要)

Host:指定请求资源的主机,Http1.1协议中新增,用于实现虚拟主机也就是共享主机。可以将一台完整的服务器分成若干个主机,这样一台服务器上就可以部署多个网站。Host请求头决定访问哪个虚拟主机。

Cookie:网站为了辨别用户进行会话跟踪,由服务器产生,存储在客户端。

Referer:用于标识请求是从哪个页面发过来的

User-Agent:用于识别客户端所使用的操作系统及版本,浏览器及版本

Content-Type:确定浏览器以什么形式什么编码读取网页,也就是请求的媒体类型信息

4)请求体

请求体中一般是POST请求的表单数据,Get请求体为空

3. 响应

由服务端返回给客户端,包含:响应头,响应体,响应状态码

1)响应状态码

200:服务器正常响应,证明成功返回数据

404:页面未找到

500:服务器内部发生错误

2)响应头

响应头包含了服务器对请求的应答信息

Server:服务器信息,名称版本

Set-Cookie:设置Cookies

Expire:指定响应的过期时间,可以使代理服务器或浏览器将家中的信息放置到缓存中,再次访问时就可以从缓存中加载

3)响应体(重要)

响应的正文数据都在响应体中,爬虫时,通过响应体得到网页的内容或json数据

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值