urllib是python内置一个上层的接口模块,可以从http或ftp上获取文件,这里讲urllib中的两个核心函数列出:
核心函数1. urllib.urlopen()
help(urllib.urlopen)会得到其参数和功能:
参数:
urlopen(url,data=None,proxies=None)
url:表示远程数据或文件的路径,一般是http或ftp这类网址
data:表示以get或者post的方式提交到url的数据
proxies:主要是用于代理的设置
功能:
Create a file-like object for the specified URL to read from
为指定的要读取的URL创建一个类文件对象(其实就是相当于返回一个句柄,为了方便下面对url的数据进行操作)
这里的返回对象有 一下常用的四种方法:
(1).read(),readline(),close(),其实就是跟文件的读写操作类似
(2).info(),返回远程服务器的相关信息
(3).getcode(),200表示成功,404表示失败
(4).geturl(),返回请求的url
核心函数2.urllib.urlretrieve()
参数:
urlretrieve(url, filename=None, reporthook=None, data=None)
url:表示远程数据或文件的路径,一般是http或ftp这类网址
filename:保存到本地的路径,如没有设置则默认返回一个由urllib临时生成的文件
reporthook:回调函数,连上服务器可显示回调信息,比如下载进度,自己通过def进行定义
data:post到服务器的数据
功能:
将远程文件下载到本地
总结:一般都是都过urlopen来获取网页信息,而后联系正则表达式进行相应文件的获取,再通过urlretrieve来进行相应的下载