Requests库
requests库为我们提供了一个封装好的 库函数, 使用更为简便
爬虫步骤依然跟以前一样
- 添加爬取网站的url信息,
- 用代码获得网页信息
- 数据分析
- 数据保存
# resquests 库的函数就相对简单
import requests
url = requests.get(url)
# 调用get 函数即可取代urllib.request.urlopen函数,
response = requests.get(url)
# 通过content 属性, 获取网站信息, content 属性返回值为二进制
data = response.content.decode('utf-8')
# 除了content 属性,还有一个text 属性方法, 是requests库自动识别的, 因为是自动识别的 所以可能会产生些意料之外的数据
data2 = response.text
以上是简单的利用requests 库
下面为第一阶段学习, 熟悉requests库的基本函数调用,以及获得到的各种信息
import requests
class Res(object):
def __init__(self):
# 添加url
url = "http://www.baidu.com"
# 添加头部信息, 浏览器信息
headers = {
'User-agent': '123'
}
# 在get 方法中可以添加头部信息
self.response = requests.get(url, headers=headers)
def run(self):
data = self.response.content.decode('utf-8')
# 1. 获取请求头的信息
request_headers = self.response.request.headers
# 2. 获取相应头信息
response_headers = self.response.headers
# 3. 获取相应的状态码
code = self.response.status_code
# 4. 获取请求的cookie
resquest_cookie = self.response.request._cookies
# 5. 获取相应的cookie
response_cookie = self.response.cookies
2021年1月26日补充
resquest库中的get方法是基于request.request 中延伸的一个方法
例如:
request.get(url, params=params, headers=headers)
等于
request.request.(‘get’, params=params, headers=headers)
516

被折叠的 条评论
为什么被折叠?



