python网络爬虫1——Requests库 获取页面

本文详细介绍了Python的Requests库,包括安装、常用方法如requests.get(),Response对象属性,爬取网页的通用代码框架,以及HTTP协议和各种HTTP方法。重点讲解了requests.request()方法及可选参数,帮助初学者掌握网络爬虫基础。
摘要由CSDN通过智能技术生成

目录

 

第一章  Requests库

1.Requests库的安装

2.Requests库最常用的方法:requests.get()

3.Response对象的属性

4.爬取网页的通用代码框架

(1)Requests库的异常

(2)爬取网页的通用代码框架

5.Requests库的常用方法

(1)HTTP协议

(2)Requests库的7个主要方法

(3)核心方法:requests.request( method, url, **kwargs)

(4)**kwargs参数


 

第一章  Requests库

相关介绍:http://www.python-requests.org

 

1.Requests库的安装

cmd中,运行命令:pip install requests

 

2.Requests库最常用的方法:requests.get()

r = requests.get(url)     获得网页

requests.get(url) 构造了一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象给r

完整函数:requests.get( url, params = None, **kwargs),后面两个参数可选

 

3.Response对象的属性

r.status_code HTTP请求的返回状态,200成功,其他失败
r.text url对应的页面内容,以字符串形式呈现
r.encoding 网页的编码方式,从网页header中猜测出来的编码方式
r.apparent_encoding 备用编码方式,从网页内容中分析出来
r.content url对应的页面内容,以二进制形式呈现

注: r.encoding:如果header中没有charset字段,则认为编码方式为ISO-8859-1,但这个编码并不能解析中文

 

4.爬取网页的通用代码框架

(1)Requests库的异常

requests.ConnectionError 网络连接错误异常
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数,重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timeout 请求URl超时,产生超时异常

Response对象提供了一个判断异常的方法&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值