1.Urllib库实战
(1)Urllib基础:
Urlretrieve:将网页直接爬到本地
import urllibre.request
urllib.request.urlretrieve("网址","filename=D:/地址")
Urlcleanup:清理Urlretrieve产生的缓存
getcode:查询该网页状态码
geturl:获取当前正在爬的网址是谁
(2)超时设置:
file=urllib.request.urlopen("网址",timeout=10)
(3)自动模拟HTTP请求:
2.爬虫的异常处理
(1)异常处理概述:
(2)常见状态码及含义:
301 Moved Permanently:重定向到新的URL,永久性
302 Found:重定向到临时的URL,非永久性
304 Not Modified:请求的资源未更新
400 Bad Request:非法请求
401 Unauthorized:请求未经授权
403 Foridden:禁止访问
404 Not Found:没有找到对应界面
500 Internal Server Error:服务器内部出现错误
501 Not Implemented:服务器不支持实现请求所需要的功能
(3)URLError与HTTPError:
两者都是异常处理的类,HTTPError是URLError的子类,HTTPErro有异常状态码和异常原因,URLError没有异常状态码。