第3章 静态网页抓取
在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的。在网络爬虫中,静态网页的数据比较容易获取,因为所有数据都呈现在网页的HTML代码中。相对而言,使用AJAX动态加载网页的数据不一定会出现在HTML代码中,这就给爬虫增加了困难。本章先从简单的静态网页抓取开始介绍,第4章再介绍动态网页抓取。
在静态网页抓取中,有一个强大的Requests库能够让你轻易地发送HTTP请求,这个库功能完善,而且操作非常简单。本章首先介绍如何安装Requests库,然后介绍如何使用Requests库获取响应内容,最后可以通过定制Requests的一些参数来满足我们的需求。
3.1 安装Requests
Requests库能通过pip安装。打开Windows的cmd或Mac的终端,键入:
pip install requests
就安装完成了。
3.2 获取响应内容
在Requests中,常用的功能是获取某个网页的内容。现在我们使用Requests获取个人博客主页的内容。
import requests
r = requests.g