爬虫的工作分为四步:
1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。
2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
3.提取数据。爬虫程序再从中提取出我们需要的数据。
4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。
这一篇的内容就是:获取数据。
首先,我们将会利用一个强大的库——requests来获取数据。
在电脑上安装的方法是:Mac电脑里打开终端软件(terminal),输入pip3 install requests,然后点击enter即可;Windows电脑里叫命令提示符(cmd),输入pip install requests 即可。
(requests库可以帮我们下载网页源代码、文本、图片,甚至是音频。“下载”本质上是向服务器发送请求并得到响应。
Pip是一个Python的包管理工具。)
先来看requests.get()方法
requests.get()的具体用法如下:
import requests
#引入requests库
res = requests.get