requests
Python 的内置 urllib 模块,可以用于访问资源,但是,用起来比较麻烦。
requests 是一个第三方库,在处理 URL 资源上面非常方便,这也是入门爬虫比较推荐的库之一。
安装 requests
如果安装了 Anaconda 这一步可以省略,否则,可以使用下面的命令来安装 requests:
$ pip install requests
上手 requests
发送请求
使用 requests,需要先导入 requests 模块:
>>> import requests
使用 get() 获取某个页面。以 requests 官方文档提及的 Github 公共时间线为例:
>>> url = "https://api.github.com/events"
>>> resp = requests.get(url)
在这里,requests 的 get() 方法返回一个 Response 对象,赋值给变量 resp。现在可以通过这个对象获取需要的内容。
响应内容
>>> resp.status_code # 响应码,200 表示正常访问
200
>>> resp.text
'[{"id":"11696703469","type":"CreateEvent","actor":{"id":59443325,"login":"mahmo