HTTP协议介绍(2)

立即学习:https://edu.csdn.net/course/play/24756/280652?utm_source=blogtoedu

一。

 

在HTTP协议中,定义了八种请求方法。这里介绍两种常用的请求方法,分别是get请求和post请求。

 

1.get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get请求。

2.post请求:向服务器发送数据(如登录)、上传文件等,会对服务器资源产生影响的时候会用post请求。

 

注:有的网站和服务器为了做反爬虫机制,也会经常不按常理出牌,有可能一个应该使用get方法的请求就一定要改成post请求。

 

 

二。

 

在HTTP协议中,向服务器发送一个请求,数据分为三部分,第一个是把数据放在url中,第二个是把数据放在body中(在post请求中),第三个就是把数据放在head中。这里介绍在网络爬虫中经常会用到的一些请求头参数:

1.User-Agent:浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果是通过爬虫发送请求的话,那么user-Agent就是python,这对于那些有反爬虫机制的网站来说,可以轻易地判断我们这个请求是爬虫。因此我们要经常设置这个值为一些浏览器地值,来伪装我们地爬虫。

2.Referer:表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的,那么就不做相关的响应。

3.Cookie:http协议是五状态地。也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用cookie来标识。一般如果想要做登录后才能访问的网站,那么就需要发送cookie信息了。

 

三。

 

常见的响应状态码

1.200:请求正常,服务器正常返回数据。

2.301:永久重定向。

3.302:临时重定向。

4.404:请求的url在服务器上找不到。请求url错误。

5.403:服务器拒绝访问,权限不够。

6.500:服务器内部错误,可能是服务器出现bug了

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值