Python爬虫之对requests和urllib库的认识和使用(一)

最新推荐文章于 2023-05-22 00:12:34 发布

harry5508

最新推荐文章于 2023-05-22 00:12:34 发布

阅读量1.4k

点赞数 2

分类专栏：爬虫相关 python 文章标签： python爬虫urllib urllib介绍 urllib使用

本文链接：https://blog.csdn.net/harry5508/article/details/86648537

版权

一、认识requests和urllib工具库

二、urllib的具体使用

1.urllib的request模块的urlopen方法可以发送http请求，具体使用：

2.使用response.read()可以获得响应体的内容，具体使用：

3.设置请求头部信息：headers

4.设置代理访问：ProxyHandler(防止ip被封)

5.携带cookie访问(HTTPCookiProcessor)

一、认识requests和urllib工具库

`urllib是python标准库，就是你安装了python，这个库就已经可以直接使用了。由于urllib只能接收一个url地址而不支持请求的headers操作，所以官方又推出了urllib2，urllib2.urlopen可以接受一个Request对象或者url，但是urllib有urlencode()方法,将字典参数编码成我们想要的请求参数。所以urllib和urllib2经常混用。不过不用担心，python3里，已经合并成了urllib，不存在urllib2了，使用起来更加方便。urllib包含四大模块：request（请求）、error(异常处理)、prse(url解析，拼接，合并，编码)、robotparser(解析robots.txt文件)。

`requests是第三方库，需要独立安装：pip install requests。requests是基于urllib编写的，并且使用起来非常方便，个人推荐使用requests。

二、urllib的具体使用

1.urllib的request模块的urlopen方法可以发送http请求，具体使用：

#1.最基本的打开网页

response = urllib.request.urlopen(url,data=None,[timeout,],,)

参数解释：url代表目标网址，data代表请求携带的参数有data就是post，不添加就是get请求，timeout是设置超时时间。

2.使用response.read()可以获得响应体的内容，具体使用：

# 1.直接将整个页面以二进制格式返回
print(response.read())
# 2.返回得是二进制格式得页面中得第一行
print(response.readline())
# 3.以二进制格式返回所有得数据以列表格式保存
print(response.readlines())
# 4.获取状态码 --200 代表得是服务器响应成功我们测试得习惯上加这行代码判断是否成功返回
print(response.getcode())
# 5.获取响应头
print(response.getheaders())
# 6.获取url
print(response.geturl())

3.设置请求头部信息：headers

方式一：构建请求对象时添加。代码示例：

#请求地址
url = 'www.baidu.com'
#设置请求头
headers = {
          'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
          'Host': 'httpbin.org'
          }
#设置请求参数
dict = {
         'name': 'zhaofan'
       }
#参数转化
data = bytes(parse.urlencode(dict), encoding='utf8')
#构建一个请求对象
req = request.Request(url=url, data=data, headers=headers, method='POST')
#发送请求
response = request.urlopen(req)
#打印相应内容
print(response.read().decode('utf-8'))

方式二：构建请求对象后，使用add_header添加。示例代码：

from urllib import request, parse
#
url = 'www.bai

最低0.47元/天解锁文章

harry5508

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之对requests和urllib库的认识和使用(一)

目录一、认识requests和urllib工具库二、urllib的具体使用1.urllib的request模块的urlopen方法可以发送http请求，具体使用：2.使用response.read()可以获得响应体的内容，具体使用：3.设置请求头部信息：headers4.设置代理访问：ProxyHandler(防止ip被封)5.携带cookie访问(HTTPCoo...
复制链接

扫一扫

专栏目录