目录
1.urllib的request模块的urlopen方法可以发送http请求,具体使用:
2.使用response.read()可以获得响应体的内容,具体使用:
一、认识requests和urllib工具库
`urllib是python标准库,就是你安装了python,这个库就已经可以直接使用了。由于urllib只能接收一个url地址而不支持请求的headers操作,所以官方又推出了urllib2,urllib2.urlopen可以接受一个Request对象或者url,但是urllib有urlencode()方法,将字典参数编码成我们想要的请求参数。所以urllib和urllib2经常混用。不过不用担心,python3里,已经合并成了urllib,不存在urllib2了,使用起来更加方便。urllib包含四大模块:request(请求)、error(异常处理)、prse(url解析,拼接,合并,编码)、robotparser(解析robots.txt文件)。
`requests是第三方库,需要独立安装:pip install requests。requests是基于urllib编写的,并且使用起来非常方便,个人推荐使用requests。
二、urllib的具体使用
1.urllib的request模块的urlopen方法可以发送http请求,具体使用:
#1.最基本的打开网页
response = urllib.request.urlopen(url,data=None,[timeout,],,)
参数解释:url代表目标网址,data代表请求携带的参数有data就是post,不添加就是get请求,timeout是设置超时时间。
2.使用response.read()可以获得响应体的内容,具体使用:
# 1.直接将整个页面以二进制格式返回
print(response.read())
# 2.返回得是二进制格式得页面中得第一行
print(response.readline())
# 3.以二进制格式 返回所有得数据 以列表格式保存
print(response.readlines())
# 4.获取状态码 --200 代表得是服务器响应成功 我们测试得习惯上加这行代码 判断是否成功返回
print(response.getcode())
# 5.获取响应头
print(response.getheaders())
# 6.获取url
print(response.geturl())
3.设置请求头部信息:headers
方式一:构建请求对象时添加。代码示例:
#请求地址
url = 'www.baidu.com'
#设置请求头
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Host': 'httpbin.org'
}
#设置请求参数
dict = {
'name': 'zhaofan'
}
#参数转化
data = bytes(parse.urlencode(dict), encoding='utf8')
#构建一个请求对象
req = request.Request(url=url, data=data, headers=headers, method='POST')
#发送请求
response = request.urlopen(req)
#打印相应内容
print(response.read().decode('utf-8'))
方式二:构建请求对象后,使用add_header添加。示例代码:
from urllib import request, parse
#
url = 'www.bai