爬虫初应用——requests库

本文介绍了Python爬虫的基础知识,重点关注requests库的使用。包括安装、基本请求方法如GET、POST等,以及params、auth、files等参数的详细解释。同时,提到了Response对象的重要属性如status_code、headers、encoding等。
摘要由CSDN通过智能技术生成

最近开始接触学习爬虫,决定把学习过程中的一些东西做以总结,方便以后复习。那么,今天就先来说说requests库。
首先,要应用requests库(是个第三方库),编译器里就得安装requests库。
爬虫的用途
爬虫就是模拟客户端发送网络请求,接收请求响应,按照一定规则自动地抓取互联网信息的程序。例如,我们可以使用爬虫来爬取股票交易数据用于测试量化投资策略;爬取一部电影的影评来对其进行分析;爬取连载小说做成pdf;甚至批量下载音乐电影等等。

进一步地说,凡是浏览器能做的事情,爬虫都能做,甚至做得更好。比如可以使用爬虫监控12306网站的余票,如果发现有符合条件的票就立刻下订单。即使订单提交失败,依然可以不间断的提交订单,直至成功地买到票。同样的操作也适用于登录教务处抢选修课,以及网站或微信上的投票(刷票)等等。

安装requests库
那么我们就在命令行里输入pip install requests
如果安装的是anaconda的请忽略这条,anaconda里requests库已有自己点安装就好。
接下来进行简单的操作,发送一个简单的请求

# 发送请求
import requests
response = requests.get('http://httpbin.org/get')
# 获取返回的html信息
print(response.text)

这样就发送了一个get请求,并且还打印了返回的内容,这个不再需要知道网页是哪个编码的,不过有时会出现编码问题,但是你也可以指定编码类型,如:


response.encoding = 'utf-8'

requests库的几种方法
(1).requests.request():构造一个请求,支撑以下各种方法的基础方法

(2).requests.get():获取HTML网页的主要方法,对应于HTTP的GET

(3).requests.head():获取HTML网页头信息的方法,对应HTTP的HEAD

(4).requests.post():向HTML网页提交POST请求的方法,对应HTTP的POST

(5).requests.put():向HTML网页提交PUT请求的方法,对应于HTTP的PUT

(6).requests.patch():向HTML网页提交局部修改请求,对应于HTTP的PATCH

(7).requests.delete():向HTML页面提交删除请求,对应于HTTP的DELETE
** request()方法的参数说明**
request()方法的语法如下:

requests.request(method, url, **kwargs)

method参数,即发送HTTP请求的方法,对应上述几种方法;url即发送请求的网址。这两个参数为必需参数。
例如我们以“GET”方法访问百度,那么相应的代码就是:


                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值