Python每日学习总结(四)

1.Urllib库实战

(1)Urllib基础:

Urlretrieve:将网页直接爬到本地

import urllibre.request
urllib.request.urlretrieve("网址","filename=D:/地址")

Urlcleanup:清理Urlretrieve产生的缓存

getcode:查询该网页状态码

geturl:获取当前正在爬的网址是谁

(2)超时设置:

file=urllib.request.urlopen("网址",timeout=10)

(3)自动模拟HTTP请求:


2.爬虫的异常处理

(1)异常处理概述:

(2)常见状态码及含义:

301 Moved Permanently:重定向到新的URL,永久性

302 Found:重定向到临时的URL,非永久性

304 Not Modified:请求的资源未更新

400 Bad Request:非法请求

401 Unauthorized:请求未经授权

403 Foridden:禁止访问

404 Not Found:没有找到对应界面

500 Internal Server Error:服务器内部出现错误

501 Not Implemented:服务器不支持实现请求所需要的功能

(3)URLError与HTTPError:

两者都是异常处理的类,HTTPError是URLError的子类,HTTPErro有异常状态码和异常原因,URLError没有异常状态码。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值