爬虫异常处理(状态码、常见错误)

  1. 必要性: 爬虫在运行的过程中,很多时候都会遇到异常。如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,要开发一个具有顽强生命力的爬虫,必须进行异常处理。

  2. 常见状态码及含义:

    301		Moved Permanently: 重定向到新的URL,永久性
    302 	Fount: 重定向到新临时的URL,非永久性
    304		Not Modified: 请求资源未更新
    400     Bad Request: 非法请求
    401 	Unauthorized 请求未经授权
    403		Forbidden: 禁止访问
    404		Not Found : 没有找到对应页面
    500		Internal Server Error: 服务器内部出错
    501		Not Implmented: 服务器不支持实现请求所需的功能
    
  3. URLError与HTTPError:
    两者都是异常处理的类,HTTPError是URlError的子类,HTTPError有异常处理状态码与异常原因,URLError没有异常状态码,在处理的时候,不能直接使用URLError直接代替HTTPError。如果要代替,必须要判断是否有状态码属性

    UELError出现大的原因(HTTPError无法做到):

    	(1) 连不上服务器
    	(2) 远程URL不存在
    	(3) 无网络
    	(4) 触发了HTTPError
    
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值