静态网页爬取
3.1 静态网页爬取概述
3.2 使用urllib3实现HTTP请求
代码如下:
2.头处理
代码如下:
3.timeout:防止网络不稳定 设置timeout参数
代码实现:
4.重试
代码实现:
5.完整HTTP请求:
代码实现:
3.3 使用requests库实现HTTP请求
requests简介
代码如下(luogu不让俺看
查看状态码和编码 返回值为概率较大的编码方式,故不一定准确)
实现编码如下:
请求头、响应头处理
代码实现:
timeout 防止程序永久失去响应
代码实现:
完整请求:
代码实现:
3.4 谷歌开发者工具介绍
浏览器自带工具
含有很多功能
十分好用
面板:
使用开发者工具查看网页:
源代码为半结构化的数据,有迹可循,可通过对数据结构的索引寻找各部分的数据
可以不断点击body中的内容观察各部分的作用和位置
但开发者工具的select工具可以避免一次次的点击(非常的人性
网络面板:
3.5.1 正则表达式
模块:
广义化:
3.5.2 使用正则表达式获取网页标题信息
代码实现:
3.6 使用XPath进行网页解析
使用lxml库需要先将其安装在电脑中,安装方法如下:
代码实现:
1.基本语法
代码实现:
2.谓语
3.功能函数
代码实现:
3.7 使用beautiful soup解析网页
代码如下:
代码:
对象属性:
代码实现:
3.8 数据存储
json文件
代码实现:
2.
3.9 小结