Requests库网络爬取实战

一、编码格式

  • r.encoding
    根据爬取到的文件head部分,识别文件的编码
  • r.apparent_encoding
    根据爬取到的文件内容,识别文件的编码。使用该编码格式才可以阅读本文件
  • 通常使用方法:r.encoding= r.apparent_encoding

二、网站访问受限问题

  • 查看请求头部
    r.requests.headers
    例:可以看到该请求头部中说明是一个爬虫。
    故,有些网站访问可能会受限
    在这里插入图片描述
  • 更改请求头部信息
    定义一个字典类型的(键值对)变量,将其通过requests.get(url,header="") 方法的header参数重新发送请求,访问该网站。
    在这里插入图片描述
    其中,Mozilla/5.0是指模拟的一个浏览器

三、带参数的网络爬虫

原理:通过拼接带参数的url去请求资源
方式一:直接拼接url

以IP地址查询为例:
在这里插入图片描述
方式二:使用requests.get(url,params="")方法
通过params参数,以字典类型(键值对)的形式传递参数。

以百度搜索引擎为例:
在这里插入图片描述具体代码:
在这里插入图片描述

四、网络图片的爬取与存储

  1. 选取一个网络图片链接
  2. 以二进制的形式存储图片在指定电脑目录
    例:在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值