python爬虫实战基础--泰迪笔记2

静态网页爬取

3.1 静态网页爬取概述

在这里插入图片描述
在这里插入图片描述3.2 使用urllib3实现HTTP请求
在这里插入图片描述
在这里插入图片描述
代码如下:
在这里插入图片描述

2.头处理
在这里插入图片描述
代码如下:
在这里插入图片描述
3.timeout:防止网络不稳定 设置timeout参数

在这里插入图片描述
代码实现:
在这里插入图片描述
4.重试
在这里插入图片描述
代码实现:
在这里插入图片描述
5.完整HTTP请求:
代码实现:
在这里插入图片描述
3.3 使用requests库实现HTTP请求
requests简介
在这里插入图片描述
在这里插入图片描述
代码如下(luogu不让俺看
在这里插入图片描述
查看状态码和编码 返回值为概率较大的编码方式,故不一定准确)
在这里插入图片描述
实现编码如下:
在这里插入图片描述
请求头、响应头处理
在这里插入图片描述
代码实现:
在这里插入图片描述
timeout 防止程序永久失去响应
在这里插入图片描述
代码实现:

在这里插入图片描述

完整请求:
在这里插入图片描述
代码实现:
在这里插入图片描述

3.4 谷歌开发者工具介绍

浏览器自带工具
含有很多功能
十分好用
在这里插入图片描述
在这里插入图片描述
面板:
在这里插入图片描述
在这里插入图片描述
使用开发者工具查看网页:
在这里插入图片描述
源代码为半结构化的数据,有迹可循,可通过对数据结构的索引寻找各部分的数据
可以不断点击body中的内容观察各部分的作用和位置
但开发者工具的select工具可以避免一次次的点击(非常的人性

网络面板:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.1 正则表达式

在这里插入图片描述
在这里插入图片描述
模块:
在这里插入图片描述
广义化:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.2 使用正则表达式获取网页标题信息

在这里插入图片描述
代码实现:
在这里插入图片描述
在这里插入图片描述
3.6 使用XPath进行网页解析
在这里插入图片描述
在这里插入图片描述
使用lxml库需要先将其安装在电脑中,安装方法如下:
在这里插入图片描述
代码实现:
在这里插入图片描述
1.基本语法
在这里插入图片描述
代码实现:
在这里插入图片描述

2.谓语
在这里插入图片描述
3.功能函数
在这里插入图片描述
代码实现:
在这里插入图片描述
3.7 使用beautiful soup解析网页
在这里插入图片描述
代码如下:
在这里插入图片描述

在这里插入图片描述

代码:
在这里插入图片描述
在这里插入图片描述
对象属性:
在这里插入图片描述
在这里插入图片描述
代码实现:
在这里插入图片描述
在这里插入图片描述
3.8 数据存储
json文件
在这里插入图片描述
在这里插入图片描述
代码实现:
在这里插入图片描述
2.
在这里插入图片描述
在这里插入图片描述

3.9 小结
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值