python 爬虫学习入门5 requests库

Requests库

requests库为我们提供了一个封装好的 库函数, 使用更为简便

爬虫步骤依然跟以前一样

  1. 添加爬取网站的url信息,
  2. 用代码获得网页信息
  3. 数据分析
  4. 数据保存
# resquests 库的函数就相对简单
import requests

url = requests.get(url)

# 调用get 函数即可取代urllib.request.urlopen函数,
response = requests.get(url)

# 通过content 属性, 获取网站信息, content 属性返回值为二进制

data = response.content.decode('utf-8')

# 除了content 属性,还有一个text 属性方法, 是requests库自动识别的, 因为是自动识别的 所以可能会产生些意料之外的数据
data2 = response.text

以上是简单的利用requests 库

下面为第一阶段学习, 熟悉requests库的基本函数调用,以及获得到的各种信息

import requests

class Res(object):
	def __init__(self):
		# 添加url
		url = "http://www.baidu.com"
		# 添加头部信息, 浏览器信息
		headers = {
			'User-agent': '123'
		}
		# 在get 方法中可以添加头部信息
		self.response = requests.get(url, headers=headers)

	def run(self):
		
		data = self.response.content.decode('utf-8')
		
		# 1. 获取请求头的信息
		request_headers = self.response.request.headers
		# 2. 获取相应头信息
		response_headers = self.response.headers
		# 3. 获取相应的状态码
		code = self.response.status_code
		# 4. 获取请求的cookie
		resquest_cookie = self.response.request._cookies
		# 5. 获取相应的cookie
		response_cookie = self.response.cookies
		
		

2021年1月26日补充

resquest库中的get方法是基于request.request 中延伸的一个方法
例如:
request.get(url, params=params, headers=headers)
等于
request.request.(‘get’, params=params, headers=headers)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值