1. 爬虫的工作原理:
- (获取数据)当你决定去某个网页时,爬虫可以模拟浏览器去向服务器发送请求
- (解析数据)等服务器响应后,爬虫可以代替浏览器帮我们解析数据
- (提取数据)接着爬虫可以根据我们设定的规则批量提取相关数据,
- (储存数据)最后爬虫可以批量把数据存储到本地
2. 获取爬虫:
- requests.get()方法
import requests
#引入requests库
URL='某网址'
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。
- Response对象的常用属性
将上面代码,加上print(type(res)),输出结果为<class 'requests.models.Response'>,可以看出res是一个对象,属于requests.models.Response类。
属性 |
作用 |
res.status_code | 检查请求是否成功 |
res.content |
把res对象转换为二进制数据 |