自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 关于httpx的使用方法

当我们遇到一些强制使用HTTP/2.0的协议访问的网站,采用requests是无法爬取数据的,因为其只支持HTTP/1.1协议,针对于这种情况,我们引入httpx请求库。

2024-09-02 22:08:09 636

原创 关于正则表达式的使用方法

我们围绕五个方法来展开讲解一下正则表达式的使用方法:match;search;findall;sub;compile

2024-08-31 02:01:46 1035

原创 关于requests的使用方法

我们围绕四个模块来展开讲解:GET请求;POST请求;响应;高级用法(cookie,session等)

2024-08-30 02:27:08 1922

原创 浅谈一下多线程和多进程(讲故事版)

思考了很久,找到了一个很好的故事来呈现多线程和多进程,这个故事就是钓鱼,对没错,就是钓鱼(钓鱼佬狂喜),那么我们就正式开始讲故事。

2024-08-22 00:09:43 221

原创 关于urllib的使用方法

urllib是python内置的HTTP请求库,包含了4个模块request:这是最基本的HTTP请求模块,可以模拟请求的发送error:异常处理模块。如果出现异常,那么我们可以捕获这些异常parse:一个工具模块,提供了许多URL的处理方法robotparser:主要是用来识别网站的robots.txt文件

2024-08-21 21:16:04 1264

原创 关于network中返回参数的各个含义

第一列 名称(Name):请求的名称,一般用URL的最后一部分内容作为名称,换句话说也就是客户端访问服务器时返回的一些信息。第二列 状态(Status):响应的状态码,我这里显示的200,代表响应是正常的。通过此状态码,我们可以判断发送的请求是否得到了正常的响应(文章的最后会列出一些常见的状态码表示的含义)第三列 类型(Type):请求的文档类型。我这里为document代表我们请求的是一个HTML文档,内容是一些HTML代码。第四列 发起程序(Initiator):请求源。用来标记请求是由哪个对象或

2024-08-20 00:39:18 1169

爬取Scrape网站中所有的电影信息,包括电影名称、封面、类别、上映时间、评分、剧情简介

爬取Scrape网站中所有的电影信息,包括电影名称、封面、类别、上映时间、评分、剧情简介。有详细的代码注解 使用到的技术栈有:requests、正则表达式、logging日志、JSON格式保存、多进程爬加速爬取、yield方法等。 运行的环境是:python3.10.10(python3.8以上都可以) 编辑器:vscode

2024-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除