爬虫_用脑白金维持脑活力的博客-CSDN博客

爬虫

关注

文章平均质量分 84

关注数：文章数：6 文章阅读量：6245 文章收藏量：81

作者: 用脑白金维持脑活力

干就完了嗷兄弟们

展开

关于httpx的使用方法

当我们遇到一些强制使用HTTP/2.0的协议访问的网站，采用requests是无法爬取数据的，因为其只支持HTTP/1.1协议，针对于这种情况，我们引入httpx请求库。

原创 2024-09-02 22:08:09 · 636 阅读 · 0 评论
关于正则表达式的使用方法

我们围绕五个方法来展开讲解一下正则表达式的使用方法：match；search；findall；sub；compile

原创 2024-08-31 02:01:46 · 1035 阅读 · 0 评论
关于requests的使用方法

我们围绕四个模块来展开讲解：GET请求；POST请求；响应；高级用法（cookie,session等）

原创 2024-08-30 02:27:08 · 1922 阅读 · 0 评论
浅谈一下多线程和多进程（讲故事版）

思考了很久，找到了一个很好的故事来呈现多线程和多进程，这个故事就是钓鱼，对没错，就是钓鱼（钓鱼佬狂喜），那么我们就正式开始讲故事。

原创 2024-08-22 00:09:43 · 221 阅读 · 0 评论
关于urllib的使用方法

urllib是python内置的HTTP请求库，包含了4个模块request：这是最基本的HTTP请求模块，可以模拟请求的发送error：异常处理模块。如果出现异常，那么我们可以捕获这些异常parse：一个工具模块，提供了许多URL的处理方法robotparser：主要是用来识别网站的robots.txt文件

原创 2024-08-21 21:16:04 · 1264 阅读 · 0 评论
关于network中返回参数的各个含义

第一列名称（Name）：请求的名称，一般用URL的最后一部分内容作为名称，换句话说也就是客户端访问服务器时返回的一些信息。第二列状态（Status）：响应的状态码，我这里显示的200，代表响应是正常的。通过此状态码，我们可以判断发送的请求是否得到了正常的响应（文章的最后会列出一些常见的状态码表示的含义）第三列类型（Type）：请求的文档类型。我这里为document代表我们请求的是一个HTML文档，内容是一些HTML代码。第四列发起程序（Initiator）：请求源。用来标记请求是由哪个对象或

原创 2024-08-20 00:39:18 · 1169 阅读 · 0 评论

爬虫

作者: 用脑白金维持脑活力

关于httpx的使用方法

关于正则表达式的使用方法

关于requests的使用方法

浅谈一下多线程和多进程（讲故事版）

关于urllib的使用方法

关于network中返回参数的各个含义