urllib.request, urllib.error, urllib.parse, urllib.robotparser
- urllib.request可以处理客户端的请求
- urllib.error包含了urllib.request产生的异常
- urllib.parse用来解析和处理URL
- urllib.robotparse用来解析页面的robots.txt文件
下面讨论的是request
urllib.request模块定义了一些打开URLs
urllib.request.
urlopen
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
urlopen()函数返回类文件对象,提供以下内建方法:
- read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样
- info():返回一个httplib.HTTPMessage对象,表示远程服务器返回的头信息
- getcode():返回Http状态码。
- geturl():返回请求的url
如果是http请求:
- 1xx(informational):请求已经收到,正在进行中
- 2xx(successful):请求成功接收,解析,完成
- 3xx(Redirection):需要重定向
- 4xx(Client Error):客户端问题,请求存在语法错误,网址未找到
- 5xx(Server Error):服务器问题