第 1章 静态网页爬虫 1
1.1 爬虫的基本概念和工作原理 2
1.1.1 什么是网络爬虫 2
1.1.2 爬虫的结构与工作流程 3
1.2 爬虫抓包分析 4
1.2.1 使用Chrome浏览器进行抓包分析 4
1.2.2 使用Fiddler进行抓包分析 11
1.3 Requests库的基本使用方法 22
1.3.1 安装Requests库 22
1.3.2 通过Requests发送GET请求 22
1.3.3 在GET请求中添加参数 29
1.3.4 发送POST请求 29
1.3.5 获取请求的状态码 30
1.3.6 指定请求时使用的headers及动态更新headers 31
1.3.7 指定Cookies和动态更新Cookies 32
1.3.8 使用session对象保持会话状态 34
1.4 网页解析利器XPath、CSS-Selector和正则表达式语法 35
1.4.1 XPath的基本语法及使用 35
1.4.2 常见相对路径引用 37
1.4.3 XPath进阶应用 38
1.4.4 CSS-Selector的基本语法及使用 40
1.4.5 正则表达式的基本语法及使用 41
1.5 常见爬虫爬取策略 43
1.5.1 宽度优先搜索策略 44
1.5.2 深度优先搜索策略 45
1.6 常见网页URL和内容去重策略 48
1.6.1 去重策略的使用场景 48
1.6.2 常见爬虫去重策略 48
1.6.3 BloomFilter算法 49
1.6.4 内容去重策略的实现 52
1.7 实战:编写一个基于静态网页的爬虫 52