1.零基础系统学习Python爬虫之request库

☞☞☞点击查看更多优秀Python博客☜☜☜


从这个文章开始我将写一个关于爬虫学习的系列文章,希望大家持续关注,我会持续进行更新,希望大家共同进步。

request库的get()方法

获取网页最简单的方法也就是request.get()的方法了,下面就让我们来看一下这种方法的使用:
在进行request.get()后函数会返回一个包含服务器资源的Response对象
同时会构造一个向服务器请求资源Request对象

import requests
url = "https://www.baidu.com/"
r = request.get(url)
print(r)

上述代码就是request函数得到网页代码的最简单的方法了,但是这样得到的代码不一定能够正确显示,可能出现乱码的情况,面对这样可能出现的情况,我们可以给他加入参数的方法进行调节,下面进行详细的介绍
request.get()共有三个参数:
request.get(url,parapans = none,**kwargs)
其中 : url代表网页链接
parapans是url的额外参数,可以是字典或者字符串,可有可无
**kwargs表示12个控制访问的参数

request的重要对象——Reponse

Reponse包含了爬虫所爬取回来的所有的内容。
request的使用历程如下:

import requests
url = "https://www.baidu.com"
r = request.get(url)
#打印request返回的所有内容
print (r)
打印r的类型
print(type(r))
#打印函数返回的状态码,若为200表示成功
print(r.status_code)
#带你函数的获得的头部信息
print(r.headers)

request.get()请求最常用的对象属性:

属性说明
r.status_codeHTTP请求的返回状态,200表示连接成功,404表示失败等等
r.textHTTP相应 内容的字符串形势,即url所对应的页面内容
r.enconding从HHTTPheader中猜测的编码方式,即可以得到网页的编码方式
r.apparent_encoding从内容中相应处编码方式
r.contentHTTP相应的二进制形势

request的使用流程

  1. 导入requests函数
  2. 通过r.status_code进行连接是否成功进行判断
  3. 若2中返回值为200,则进行r.text;r.encoding;r.apparent_enconding;
    r.content等操作
  4. 若2中返回不是200,则需要进行失败原因的查找

理解Reponse的编码

属性说明
r.encoding从HTTTP header中猜测的相应内容编码方式
r.apparent_encoding从内容中分析出相应内容的编码方式(备选的编码方式)

区别:
r.encoding:如果header中不存在charset,则默认为编码为ISO-8859-1
r.apparent_encoding:从内容中分析,得到的编码方式比较可靠当r.encoding无法得到编码方式是应使用r.apparent_encoding进行编码方式的分析,分析完后再讲分析出来的值赋予r.encoding。

以上即为本文的全部内容,快去试试你说学到的代码吧,python的学习一定要进行实践,不能只刷视频,不练习,希望本文对你的学习能有帮助。
另外我会对python爬虫进行持续更新。希望大家持续关注
提示学习来源:北京理工大学慕课

**文章导航:**

零基础学Python教程

在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值