urllib库
是Python中一个最基本的网络请求库。可以模仿浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据
from urllib import request
request.urlopen(‘http://www.baidu.com’)
print(resp.read())
urlopen 函数详解
其中参数分别为:
- Url 请求的URL
- Data 请求的data,如果设置了这个值,那么由get变成post请求
- 返回值是一个http.client.HTTPResponse对象,对象是一个类文件句柄对象
- 对此句柄,有read(size)\readline\readlins\getcode 等方法
urlencode 函数
这个函数可以方便的将将网页上的一个文件保存到本地
From urllib import request
request.urlretrieve(‘http://www.baidu.com/’, ‘Baidu.html’)
//前参数为源url,后为目标地址
urlparse 和 urlsplit函数
拿到一个url,想要对其中的各个部分进行分割,这时候就可以使用这两个函数
例代码:
url = ‘http://www.baidu.com/s?wd=python&username=abc#1’
result = parse.urlparse(url)
print(result)
print(‘scheme:’, result.scheme)
print(‘netloc:’, result.netloc)
//params 不存在于urlsplit中
request.Request类
设置请求头:
From urllib import request
Url = ‘a link’
Headers = (‘User-Agent’: ‘…’)
req = request.Request(url, headers = headers)
resp = request.urlopen(req)
Print (resp.read())