Python 爬虫(3)requests包


前言:

在Python爬虫开发中,requests包是一个非常流行的第三方库,用于发送HTTP请求并处理服务器的响应。requests包的核心功能围绕RequestResponse两个对象展开。下面我们将详细介绍这两个对象的基本功能。


一、requests

1、Request对象的主要属性

Request对象用于构建HTTP请求。它包含了请求的所有信息,例如URL、请求方法、请求头、请求体等。虽然在实际使用中,我们通常直接调用requests.get()requests.post()等方法来发送请求,但这些方法内部都会创建一个Request对象。

1.1、method

  • 功能:表示HTTP请求方法,例如GETPOSTPUTDELETE等。
  • 示例
    request = requests.Request('GET', 'https://www.example.com')
    print(request.method)  # 输出:GET
    

1.2、url

  • 功能:表示请求的目标URL。
  • 示例
    request = requests.Request('GET', 'https://www.example.com')
    print(request.url)  # 输出:https://www.example.com
    

1.3、headers

  • 功能:表示请求头,以字典形式存储。
  • 示例
    headers = {'User-Agent': 'Mozilla/5.0'}
    request = requests.Request('GET', 'https://www.example.com', headers=headers)
    print(request.headers)  # 输出:{'User-Agent': 'Mozilla/5.0'}
    

1.4、params

  • 功能:表示URL参数,以字典形式存储。这些参数会自动拼接到URL中。
  • 示例
    params = {'q': 'python'}
    request = requests.Request('GET', 'https://www.example.com', params=params)
    print(request.url)  # 输出:https://www.example.com?q=python
    

1.5、data

  • 功能:表示请求体数据,通常用于POSTPUT请求。
  • 示例
    data = {'username': 'admin', 'password': '123456'}
    request = requests.Request('POST', 'https://www.example.com/post', data=data)
    print(request.data)  # 输出:{'username': 'admin', 'password': '123456'}
    

1.6、json

  • 功能:表示请求体数据,以JSON格式发送。
  • 示例
    json_data = {'key': 'value'}
    request = requests.Request('POST', 'https://www.example.com/post', json=json_data)
    print(request.json)  # 输出:{'key': 'value'}
    

1.7、cookies

  • 功能:表示请求的Cookies,以字典形式存储。
  • 示例
    cookies = {'session_id': '12345'}
    request = requests.Request('GET', 'https://www.example.com', cookies=cookies)
    print(request.cookies)  # 输出:{'session_id': '12345'}
    

2、Response对象的主要属性

Response对象是requests包中用于表示服务器响应的对象。它包含了服务器返回的所有信息,例如状态码、响应内容、响应头等。

2.1、 status_code

  • 功能:表示HTTP响应的状态码,例如200表示成功,404表示未找到资源。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.status_code)  # 输出:200
    

2.2、text

  • 功能:表示响应的文本内容,通常是HTML或JSON格式。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.text)  # 输出HTML内容
    

2.3、content

  • 功能:表示响应的二进制内容,适用于非文本数据(如图片、文件)。
  • 示例
    response = requests.get('https://www.example.com/image.png')
    with open('image.png', 'wb') as f:
        f.write(response.content)  # 保存图片
    

2.4、headers

  • 功能:表示响应的头信息,以字典形式返回。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.headers)  # 输出响应头信息
    

2.5、cookies

  • 功能:表示服务器返回的Cookies。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.cookies)  # 输出Cookies
    

2.6、url

  • 功能:表示最终请求的URL(考虑重定向)。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.url)  # 输出最终URL
    

2.7、encoding

  • 功能:表示响应的编码格式。
  • 示例
    response = requests.get('https://www.example.com')
    print(response.encoding)  # 输出编码格式
    

2.8、json()

  • 功能:将响应的JSON内容解析为Python字典。
  • 示例
    response = requests.get('https://api.example.com/data')
    print(response.json())  # 输出JSON解析后的字典
    

2.9、raise_for_status()

  • 功能:如果请求失败(状态码不是200),抛出异常。
  • 示例
    response = requests.get('https://www.example.com/404')
    response.raise_for_status()  # 抛出HTTPError异常
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值