python爬虫实战基础--泰迪笔记2

万物皆非

于 2021-10-08 19:37:21 发布

阅读量320

点赞数

分类专栏：泰迪智能工作室学习文章标签： python 爬虫 pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51683259/article/details/116267289

版权

泰迪智能工作室学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

静态网页爬取

3.1 静态网页爬取概述

在这里插入图片描述
3.2 使用urllib3实现HTTP请求

代码如下：

2.头处理
在这里插入图片描述
代码如下：

3.timeout：防止网络不稳定设置timeout参数

在这里插入图片描述
代码实现：

4.重试

代码实现:

5.完整HTTP请求：
代码实现：

3.3 使用requests库实现HTTP请求
requests简介

代码如下（luogu不让俺看

查看状态码和编码返回值为概率较大的编码方式，故不一定准确）
在这里插入图片描述
实现编码如下：

请求头、响应头处理

代码实现：

timeout 防止程序永久失去响应

代码实现：

在这里插入图片描述

完整请求：
在这里插入图片描述
代码实现：

3.4 谷歌开发者工具介绍

浏览器自带工具
含有很多功能
十分好用
在这里插入图片描述

面板：

使用开发者工具查看网页：

源代码为半结构化的数据，有迹可循，可通过对数据结构的索引寻找各部分的数据
可以不断点击body中的内容观察各部分的作用和位置
但开发者工具的select工具可以避免一次次的点击（_{非常的人性}

网络面板：
在这里插入图片描述

3.5.1 正则表达式

在这里插入图片描述

模块：

广义化：

3.5.2 使用正则表达式获取网页标题信息

在这里插入图片描述
代码实现：

3.6 使用XPath进行网页解析

使用lxml库需要先将其安装在电脑中，安装方法如下：

代码实现：

1.基本语法

代码实现：

2.谓语
在这里插入图片描述
3.功能函数

代码实现：

3.7 使用beautiful soup解析网页

代码如下：

在这里插入图片描述

代码：
在这里插入图片描述

对象属性：

代码实现：

3.8 数据存储
json文件

代码实现：

2.

3.9 小结
在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。