这篇文章基于之前爬取数据相关任务,总结了爬虫的基础内容。首先介绍爬虫的基本步骤,然后附加了一个示例。
1、爬虫的基本步骤
1.1 发送网络请求并获取响应的内容
发送网络请求实际上相当于我们打开浏览器,输入目标网址访问这个网页的过程;网页服务器返回的数据就是请求对应的响应内容 。
在爬虫的时候首先向我们想要爬取数据的网站发送一个请求,然后获取网站返回的响应内容,这些响应内容就包含了我们想要爬取的数据。
1.2 解析响应的内容
在爬虫的时候,我们发送请求之后获取的响应内容一般是HTML、JSON等格式的数据,因此需要对这些数据进行解析,从中提取出我们希望获取的信息。以知乎网站为例,我们在浏览器输入 https://zhuanlan.zhihu.com/p/262230083 ,然后单击右键选择 检查 ,可以看到页面的HTML结构,按照步骤1-4可以定位页面某一元素在HTML结构中的位置,如下图所示:
1.3 保存解析的数据
解析完成数据之后,就可以采用合适的方法对数据进行保存,可以存储为本地的文本、图片等,也可以存储到数据库中。
2、Python爬虫示例
应用Python进行网络爬虫的时候,我们使用了 requests、BeautifulSoup、pandas 3个模块,分别用于发送网络请求获取响应内容、解析响应内容、存储解析之后的数据。代码如下:
import requests
from bs4 import BeautifulSoup
import pandas as pd
2.1 发送网络请求并获取响应的内容
第一步是发送请求并获取响应的内容,代码如下:
headers = {
'user-agent