-
必要性: 爬虫在运行的过程中,很多时候都会遇到异常。如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,要开发一个具有顽强生命力的爬虫,必须进行异常处理。
-
常见状态码及含义:
301 Moved Permanently: 重定向到新的URL,永久性 302 Fount: 重定向到新临时的URL,非永久性 304 Not Modified: 请求资源未更新 400 Bad Request: 非法请求 401 Unauthorized 请求未经授权 403 Forbidden: 禁止访问 404 Not Found : 没有找到对应页面 500 Internal Server Error: 服务器内部出错 501 Not Implmented: 服务器不支持实现请求所需的功能
-
URLError与HTTPError:
两者都是异常处理的类,HTTPError是URlError的子类,HTTPError有异常处理状态码与异常原因,URLError没有异常状态码,在处理的时候,不能直接使用URLError直接代替HTTPError。如果要代替,必须要判断是否有状态码属性UELError出现大的原因(HTTPError无法做到):
(1) 连不上服务器 (2) 远程URL不存在 (3) 无网络 (4) 触发了HTTPError
爬虫异常处理(状态码、常见错误)
最新推荐文章于 2021-12-03 07:45:45 发布