requests的安装
终端输入:pip install requests
requests的使用
import requests
**
开始第一个爬虫请求:
**
import requests
r=requests.get('http://****.com')
print(r.text)
返回的是一个网页
对于简单网页,我们可以直接对网页进行输出
但是如果我们所爬取的网页过大,为了使我们更加方便的知道我们是否成功的发起请求,我们可以直接使用
status_code方法
import requests
r=requests.get('http://www.baidu.com')
print(r.status_code)
如果一切顺利,我们将会得到
>>> print(r.status_code)
200
返回值两百代表我们成功的获得服务器返回的网页
与其类似的还有
200 -- 服务器成功返回网页
3xx -- 3xx开头的状态码,一般用来重定向
403 -- 禁止,服务器拒绝请求,有可能是还没有方法
404 -- 请求的网页不存在
408 -- 请求超时,服务器等待请求时超时
500 -- 服务器内部错误
502 -- 错误网关,服务器作为网关或者代理,从上游服务器收到无效相应
503 -- 服务器超时
**
对于获取的网页乱码的情况 我们可以使用
>>> r.encoding
'utf-8'
url 请求:
r=requests.get(url)
带参数的URL:
对于带参数的URL我们可以传入一个dict
>>> r = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'})
>>> r.url # 实际请求的URL
'https://www.douban.com/search?q=python&cat=1001'