爬虫之requests库——基础知识整理

最新推荐文章于 2020-12-21 16:36:03 发布

是梅梅森

最新推荐文章于 2020-12-21 16:36:03 发布

阅读量154

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_43362233/article/details/105273914

版权

requests的安装
终端输入：pip install requests
requests的使用
import requests

开始第一个爬虫请求：

import requests
r=requests.get('http://****.com')
print(r.text)

返回的是一个网页
在这里插入图片描述对于简单网页，我们可以直接对网页进行输出
但是如果我们所爬取的网页过大，为了使我们更加方便的知道我们是否成功的发起请求，我们可以直接使用
status_code方法

import requests
r=requests.get('http://www.baidu.com')
print(r.status_code)

如果一切顺利，我们将会得到

>>> print(r.status_code)
200

返回值两百代表我们成功的获得服务器返回的网页
与其类似的还有

200 -- 服务器成功返回网页
3xx -- 3xx开头的状态码，一般用来重定向
403 -- 禁止，服务器拒绝请求，有可能是还没有方法
404 -- 请求的网页不存在
408 -- 请求超时，服务器等待请求时超时
500 -- 服务器内部错误
502 -- 错误网关，服务器作为网关或者代理，从上游服务器收到无效相应
503 -- 服务器超时

**
对于获取的网页乱码的情况我们可以使用

>>> r.encoding
'utf-8'

url 请求：
r=requests.get(url)
带参数的URL：
对于带参数的URL我们可以传入一个dict

>>> r = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'})
>>> r.url # 实际请求的URL
'https://www.douban.com/search?q=python&cat=1001'

是梅梅森

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫之requests库——基础知识整理

requests的安装终端输入：pip install requestsrequests的使用import requests**开始第一个爬虫请求：**import requestsr=requests.get('http://****.com')print(r.text)返回的是一个网页对于简单网页，我们可以直接对网页进行输出但是如果我们所爬取的网页过大，为了使我们更加...
复制链接

扫一扫