15.python-爬虫的基础认知，状态码认知（请求状态码）

最新推荐文章于 2024-04-10 18:55:05 发布

学无止境-程序猿

最新推荐文章于 2024-04-10 18:55:05 发布

阅读量1.5k

点赞数

分类专栏： python爬虫的基础认知 Python的爬虫使用案例 Python的常见库使用一只虫子的从无到有（爬虫的基础认知）文章标签：状态码认识简单爬虫的认知爬虫状态码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Programmer_huangtao/article/details/83011438

版权

Python的常见库使用同时被 3 个专栏收录

40 篇文章 0 订阅

订阅专栏

Python的爬虫使用案例

34 篇文章 0 订阅

订阅专栏

python爬虫的基础认知

30 篇文章 0 订阅

订阅专栏

写一个最简单的爬虫

先介绍,我的环境:

Ubuntu:18.04(64位)

IDE(解释为开发环境,用什么写的)

Python3.6

注意Python2.X 和Python3.X有些语法问题,看情况而定

爬虫网站为'http://www.xiaozhu.com/'

前面说过了request请求,response响应,OK第一个爬虫完成了,是不是很简单.不说这么多了上代码.看看效果.这个爬虫只是请求的网页<HTML>

import requests
#导入相应的包文件
headers={
    'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36'
}
#加入请求头
respones =requests.get('https://bj.xiaozhu.com/','headers=headers')
#输入网址发送请求
print(respones)
#请求得到响应,请求成功

得到:'<Response [200]>',这个是什么?说明访问成功.

这里就需要咱们要知道些什么了,访问是否成功,返回数值为状态码什么意思?

1XX（信息类）

该类型状态码表示接收到请求并且继续处理。

100，客户端必须继续发出请求。
101，客户端要求服务器根据请求转换HTTP协议版本。

2XX（响应成功）

该类型状态码表示动作被成功接收、理解和接受。

200，表明该请求被成功地完成，所请求的资源发送到客户端。
201，提示知道新文件的URL。
202，接受并处理，但处理未完成。
203，返回信息不确定或不完整。
204，收到请求，但返回信息为空。
205，服务器完成了请求，用户必须复位当前已经浏览过的文件。
206，服务器已经完成了部分用户的GET请求。

3XX（重定向类）

该类型状态码表示为了完成指定的动作，必须接受进一步处理。

300，请求的资源可在多处获得。
301，本网页被永久性转移到另一个URL。
302，请求的网页被重定向到新的地址。
303，建议用户访问其他URL或访问方式。
304，自从上次请求后，请求的网页未修改过。
305，请求的资源必须从服务器指定的地址获得。
306，前一版本HTTP中使用的代码，现已不再使用。
307，声明请求的资源临时性删除。

4XX（客户端错误类）

该类型状态码表示请求包含错误语法或不能正确执行。

400，客户端请求有语法错误。
401，请求未经授权。
402，保留有效ChargeTo头响应。
403，禁止访问，服务器收到请求，但拒绝提供服务。
404，可连接服务器，但服务器无法取得所请求的网页，请求资源不存在。
405，用户在Request-Line字段定义的方法不被允许。
406，根据用户发送的Accept，请求资源不可访问。
407，类似401，用户必须首先在代理服务器上取得授权。
408，客户端没有在用户指定的时间内完成请求。
409，对当前资源状态，请求不能完成。
410，服务器上不再有此资源。
411，服务器拒绝用户定义的Content-Length属性请求。
412，一个或多个请求头字段在当前请求中错误。
413，请求的资源大于服务器允许的大小。
414，请求的资源URL长于服务器允许的长度。
415，请求资源不支持请求项目格式。
416，请求中包含Range请求头字段，在当前请求资源范围内没有range指示值。
417，服务器不满足请求Expect头字段指定的期望值。

5XX（服务器错误类）

该类型状态码表示服务器或网关错误。

500，服务器错误。
501，服务器不支持请求的功能。
502，网关错误。
503，无法获得服务。
504，网关超时。
505，不支持的http版本。

这么多的状态码,作为小白来说记不住的,多练习几个爬虫,从中积累下,就大部分明白了.

学无止境-程序猿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。