爬虫
文章平均质量分 84
用脑白金维持脑活力
干就完了嗷 兄弟们
展开
-
关于httpx的使用方法
当我们遇到一些强制使用HTTP/2.0的协议访问的网站,采用requests是无法爬取数据的,因为其只支持HTTP/1.1协议,针对于这种情况,我们引入httpx请求库。原创 2024-09-02 22:08:09 · 636 阅读 · 0 评论 -
关于正则表达式的使用方法
我们围绕五个方法来展开讲解一下正则表达式的使用方法:match;search;findall;sub;compile原创 2024-08-31 02:01:46 · 1035 阅读 · 0 评论 -
关于requests的使用方法
我们围绕四个模块来展开讲解:GET请求;POST请求;响应;高级用法(cookie,session等)原创 2024-08-30 02:27:08 · 1922 阅读 · 0 评论 -
浅谈一下多线程和多进程(讲故事版)
思考了很久,找到了一个很好的故事来呈现多线程和多进程,这个故事就是钓鱼,对没错,就是钓鱼(钓鱼佬狂喜),那么我们就正式开始讲故事。原创 2024-08-22 00:09:43 · 221 阅读 · 0 评论 -
关于urllib的使用方法
urllib是python内置的HTTP请求库,包含了4个模块request:这是最基本的HTTP请求模块,可以模拟请求的发送error:异常处理模块。如果出现异常,那么我们可以捕获这些异常parse:一个工具模块,提供了许多URL的处理方法robotparser:主要是用来识别网站的robots.txt文件原创 2024-08-21 21:16:04 · 1264 阅读 · 0 评论 -
关于network中返回参数的各个含义
第一列 名称(Name):请求的名称,一般用URL的最后一部分内容作为名称,换句话说也就是客户端访问服务器时返回的一些信息。第二列 状态(Status):响应的状态码,我这里显示的200,代表响应是正常的。通过此状态码,我们可以判断发送的请求是否得到了正常的响应(文章的最后会列出一些常见的状态码表示的含义)第三列 类型(Type):请求的文档类型。我这里为document代表我们请求的是一个HTML文档,内容是一些HTML代码。第四列 发起程序(Initiator):请求源。用来标记请求是由哪个对象或原创 2024-08-20 00:39:18 · 1169 阅读 · 0 评论