爬虫02--request模块

入门

  • 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urllib模块,因此,在我们课程中,推荐大家使用requests模块。
  • Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。
    警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。
    为什么要使用requests模块

在使用urllib模块的时候,会有诸多不便之处,总结如下:

  1. 手动处理url编码
  2. 手动处理post请求参数
  3. 处理cookie和代理操作繁琐
    ……

使用requests模块:

  1. 自动处理url编码
  2. 自动处理post请求参数
  3. 简化cookie和代理操作
    ……

如何使用!

安装 pip install requests (加了s)

基本流程

  1. 导入模块
  2. 指定url
  3. 进行UA伪装(防爬)
  4. 基于requests模块发起请求
  5. 获取响应对象中的数据值
  6. 持久化存储

–get请求

response = requests.get(url,params,headers)
  • url 需要解析的网址
  • params 携带的参数 {key:value}字典类型
  • headers 请求头 {key:value}字典类型
    UA伪装 在开发者工具中network选项卡察看
 headers={
   'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36' 
 }

当请求的是文本数据,用response.text获取响应数据

page_html = response.text

当请求的是二进制数据,用response.content获取响应数据
(二进制数据例如 音频,图片,视频等)

page_html = response.content

–post请求

response = requests.post(url,data,headers)
  • url 需要解析的网址
  • data 携带的参数 这里与get方式不同
  • headers 请求头 {key:value}字典类型

注 响应数据还有response.json

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值