爬虫笔记--Requests

Requests库是能够处理获取url(网址链接)中的信息的一个第三方库

一、requests安装:
            Windows进入cmd命令行:pip install requests

            我们可以打开IDLE来查看是否成功的安装。

没有提示错误信息表示我们已经成功地安装好了requests库

二、requests下的主要方法:
            requests.requests() 构造一个请求,支撑以下的各种方法的基础方法
            requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
            requests.head() 获取HTML网页头信息的主要方法,对应于HTTP的HEAD
            requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
            requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
            requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH  (节省带宽)
            requests.delete() 向HTML网页提交删除请求,对应于HTTP的DELETE

三、Response对象的属性
            r.status_code  HTTP请求的返回状态,200表示连接成功
            r.text HTTP响应内容的字符串形式,即url对应的页面内容
            r.encoding  从HTTP hader中猜测的响应内容编码方式
            r.apparent_encoding  从内容中分析出响应内容编码格式
            r.content  HTTP响应内容的二进制形式

四、requests异常处理
            requests.ConnectionError  网络连接异常,如DNS查询失败、拒绝连接等
            requests.HTTPError   HTTP错误异常
            requests.URLRequired  URL缺失异常
            requests.TooManyRedirects   超过最大重定向次数、产生的重定向异常
            requests.ConnectTimeout   连接服务器超时异常
            requests.Timeout   请求URL超时异常

为什么要有这么多的异常处理,那是因为有些网站是不能够被访问

一般的原因有下面两种:

     1、网站的搭建者或者维护者拥有较高的能力,使用一定的工具来限制你对他们网页内容进行相关的爬取

     2、网页本身是具有robots协议,这里请自行百度一下robots协议的相关信息我在此就不介绍了。

对于第一种方法我们不太好解决,因为技术有限,但是如果只是因为robots协议的话我们是可以修改一定的参数来绕过robots协议的。

对requests库的介绍到此为止,希望能对大家有帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值