python的爬虫相关模块有很多,除了requests模块,再如urllib和pycurl以及tornado等。相比而言,requests模块是相对简单易上手的。通过文本,大家可以迅速学会使用python的requests模块爬取页码内容。
1.Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。
官网:http://cn.python-requests.org/zh_CN/latest/
1.安装requests模块
这里我是通过pip方式进行安装:
> pip install requests
安装requests
运行import requests,如果没提示错误,那说明已经安装成功了!
2.安装beautifulsoup4
pip install beautifulsoup4
3.requests模块浅析
1)发送请求
首先当然是要导入 Requests 模块:
import requests
然后,获取目标抓取网页。这里我以简书为例:
response = requests.get('https://www.jianshu.com/u/5328be71bdc1')
这里返回一个名为 response 的响应对象。从这个对象中获取所有我们想要的信息。这里的get是http的响应方法,所以举一反三,也可以将其替换为put、delete、post、head等方法。
2)传递URL参数
有时我们想为 URL 的查询字符串传递某种数据。如果你是手工构建 URL,那么数据会以键/值对的形式置于 URL 中