自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(288)
  • 收藏
  • 关注

原创 【Python】如何编写一个Scrapy扩展(Scrapy Extension)

Scrapy扩展是一些可以插入到Scrapy的执行流程中的插件,用于在特定的时机执行自定义代码。这些时机包括引擎启动和停止、调度器事件、下载器事件以及爬虫的各种信号。本文介绍了如何编写和使用一个Scrapy扩展。通过扩展机制,我们可以在Scrapy的执行过程中插入自定义的逻辑,满足各种特定需求。希望这个示例能帮助你更好地理解和使用Scrapy扩展。如果你有任何问题或建议,欢迎在评论区留言。

2024-07-26 16:17:18 581

原创 【Python】探索 Python 中的 any 和 all 方法

any:用于检查一个可迭代对象中是否至少有一个元素为真。如果有一个元素为真,则返回 True,否则返回 False。all:用于检查一个可迭代对象中是否所有元素都为真。如果所有元素都为真,则返回 True,否则返回 False。iterable:一个可迭代对象,如列表、元组、集合等。any 和 all 是 Python 中两个非常有用的内置函数,特别适用于需要检查序列中元素是否符合特定条件的场景。通过理解和掌握 any 和 all 的用法,我们可以编写更加简洁和高效的代码。

2024-07-21 23:49:38 899

原创 【Python】 探索 Python 中的 breakpoint 方法

breakpoint 是 Python 的内置函数,用于启动调试器。在调用 breakpoint 方法时,Python 将进入调试模式,允许开发者检查代码的执行状态、变量值以及调试代码逻辑。*args 和 **kwargs:可选参数,用于传递给调试器。在默认情况下,breakpoint 启动的是内置的 pdb 调试器,但可以通过设置环境变量或使用其他调试器进行定制。breakpoint 方法允许我们使用自定义的调试器。通过设置 PYTHONBREAKPOINT 环境变量,我们可以指定其他调试器。

2024-07-21 23:45:27 940

原创 【Python】探索 Python 中的 filter 方法

filter 是 Python 的内置函数,用于从一个可迭代对象中筛选出符合指定条件的元素。function:用于筛选元素的函数。如果函数返回 True,该元素将被保留。iterable:需要筛选的可迭代对象。filter 方法返回一个过滤后的迭代器。我们还可以使用 filter 方法来筛选自定义对象。# 创建 Person 对象列表people = [# 筛选出年龄大于30的人print(person.name) # 输出: Charlie。

2024-07-21 23:42:57 698

原创 【Python】探索 Python 中的 divmod 方法

divmod 是 Python 的内置函数,用于同时计算整数除法的商和余数。a:被除数,任意整数或浮点数。b:除数,任意整数或浮点数。返回值是一个包含商和余数的元组 (quotient, remainder)。divmod 是 Python 中一个非常有用的内置函数,特别适用于需要同时获取除法商和余数的场景。通过理解和掌握 divmod 的用法,我们可以编写更加简洁和高效的代码。希望本文能帮助你更好地理解 divmod 方法,并在实际编程中加以应用。

2024-07-21 23:40:04 402

原创 【Python】探索 Python 中的 callable 方法

callable 是一个内置函数,用于检查对象是否是可调用的。object:任何 Python 对象。返回值是一个布尔值,如果对象是可调用的,则返回 True,否则返回 False。callable 是 Python 中一个非常有用的内置函数,特别适用于需要动态检查对象可调用性的场景。通过理解和掌握 callable 的用法,我们可以编写更加灵活和健壮的代码。希望本文能帮助你更好地理解 callable 方法,并在实际编程中加以应用。

2024-07-21 23:34:58 252

原创 【Python】 探索 Python 中的 reversed 方法

reversed 是 Python 的内置函数,用于返回一个反向迭代器,该迭代器可以遍历序列中的元素,从最后一个元素到第一个元素。sequence:一个支持反向迭代的序列,如列表、元组、字符串或实现了reversed或len方法的对象。如果我们希望自定义对象支持 reversed 方法,我们需要在类中实现reversed# 创建 CustomRange 对象并使用 reversedprint(num)# 输出:# 4# 3# 2# 1。

2024-07-21 23:30:36 596

原创 【Python】写一篇setattr方法的使用博客

setattr 是一个内置函数,用于给对象设置属性值。object:需要设置属性的对象。name:属性名,以字符串形式表示。value:属性的值。通过 setattr,我们可以在运行时动态地为对象添加或修改属性。setattr 是 Python 中一个强大而灵活的工具,特别适用于需要动态设置对象属性的场景。通过理解和掌握 setattr 的用法,我们可以编写更灵活和动态的代码。

2024-07-21 23:27:25 238

原创 【Python】探索 Python 中的 slice 方法

slice 是 Python 的内置类,用于创建切片对象。切片对象可以用作索引,指定序列的 start、stop 和 step 参数。start:切片的起始索引(包含),默认为 None,表示从序列开始。stop:切片的结束索引(不包含)。step:切片的步长,默认为 None,表示步长为 1。# 定义一组预定义的切片对象slices = {# 使用预定义的切片对象print(f"# 定义一组预定义的切片对象 slices = {

2024-07-21 23:23:33 344

原创 【Python】 深入理解 Python 的 repr 方法

repr 是 Python 的内置函数,返回一个对象的字符串表示,该表示旨在准确且清晰地描述对象,通常用于调试和开发。object:任何 Python 对象。返回值是一个字符串,表示对象的官方字符串表示形式。对于自定义对象,我们可以通过实现repr方法来自定义其 repr 表示。这对于调试复杂对象非常有用。

2024-07-21 23:19:15 426

原创 【Python】 探索 Python 中的 enumerate 方法

enumerate 是 Python 的内置函数,用于在遍历序列时生成一个包含索引和值的迭代器。iterable:一个可迭代对象,如列表、元组、字符串等。start:索引起始值,默认为 0。enumerate 是 Python 中一个非常实用的内置函数,特别适用于需要同时获取序列中元素及其索引的场景。它使代码更加简洁和易读,同时避免了手动管理索引的繁琐操作。通过理解和掌握 enumerate 的用法,我们可以在遍历序列时更加高效和优雅地处理各种需求。

2024-07-21 23:16:50 624

原创 【Python】深入理解 Python 的 bool 方法

bool(x)bool 方法接受一个参数 x,返回 True 或 False。NoneFalse数值类型中的 0 或 0.0空的序列或集合,如 ‘’(空字符串)、[](空列表)、{}(空字典)、set()(空集合)、()(空元组)空的自定义对象(实现了bool或len方法,并返回 False 或 0)除上述情况外,其他所有对象均被视为 True。自定义对象在进行布尔转换时,可以通过实现特殊方法bool或len# 创建对象并转换为布尔值。

2024-07-21 23:08:03 473

原创 【Python】深入理解 Python 的 memoryview:高效处理数据

memoryview 是 Python 内置的一个类,用于访问支持缓冲区接口的对象的内存,允许在不复制对象的情况下对其进行切片和操作。常见的支持缓冲区接口的对象包括 bytes、bytearray、array.array 等。通过 memoryview,你可以直接操作这些对象的内存视图,从而提高数据处理的效率。memoryview 是 Python 中一个强大的工具,特别适用于需要高效处理大规模数据的场景。

2024-07-21 23:01:46 408

原创 【Python】深入了解 Python 的生成器

生成器是一种可以在迭代中生成值的函数。与普通函数不同,生成器在执行过程中可以暂停,并在需要时恢复执行,从而逐步产生值。生成器函数使用 yield 关键字来返回值,并且可以多次 yield 返回多个值。每次生成值后,生成器的状态(包括局部变量、指令指针等)会被保留,下一次调用时可以从上次暂停的地方继续执行。Python 的生成器是一种强大的工具,可以显著提高代码的性能和可读性。通过生成器,您可以处理大数据集、实现惰性求值、简化迭代逻辑,并有效管理内存。

2024-07-14 23:36:45 378

原创 【Python】Gunicorn vs Uvicorn:如何选择适合你的 Python WSGI/ASGI 服务器

Gunicorn,全称 Green Unicorn,是一个被广泛使用的 WSGI 服务器,专为处理同步 Web 请求而设计。它基于预分叉(pre-fork)工作模型,可以与多种 Web 框架如 Django、Flask 等无缝结合。Uvicorn 是一个基于 ASGI 标准的超快速 ASGI 服务器,使用 uvloop 和 httptools 提供高性能的异步 HTTP 请求处理。它特别适合于需要高并发、低延迟的现代异步 Web 应用。

2024-07-14 23:31:51 1165

原创 【Python】深入了解 Gunicorn:一个高效的 Python WSGI 服务器

Uvicorn 是一个轻量级的 ASGI 服务器,使用 uvloop 和 httptools 提供超高性能的 HTTP 请求处理。它非常适合于需要高并发、低延迟的异步 Web 应用和微服务架构。Uvicorn 支持多种 Python Web 框架,如 FastAPI、Django、Starlette 等。Uvicorn 作为一个高性能的 ASGI 服务器,因其高效、简单易用和广泛兼容性而受到欢迎。

2024-07-14 23:29:21 1033

原创 【Python】深入了解 Gunicorn:一个高效的 Python WSGI 服务器

Gunicorn,全称 Green Unicorn,是一个被设计为轻量级的 WSGI 服务器,兼容 UNIX 系统,能够与多种 Web 框架如 Django、Flask 等无缝结合。它基于预分叉(pre-fork)模型,这意味着主进程在启动时会预先生成多个工作进程,以处理传入的 HTTP 请求。Gunicorn 作为一个高效的 Python WSGI 服务器,因其高性能、简洁易用和广泛兼容性而备受欢迎。

2024-07-14 23:25:12 978

原创 【Python】 使用 gne 库提取新闻标题的简易指南

gne 是一个基于规则和机器学习的网页信息抽取库,主要用于提取新闻网页中的正文、标题、作者和发布时间等信息。它的目标是尽可能减少手动编写解析规则的工作,通过智能化的方式自动提取关键内容。gne 是一个强大的工具,可以帮助我们轻松地从新闻网页中提取内容。通过本文的介绍,你应该能够安装 gne 并使用它来提取新闻标题。在实际应用中,你可以根据需要进一步扩展和定制提取规则,以满足特定项目的需求。

2024-07-14 23:20:33 325

原创 【Go】如何使用 Go 连接 MySQL 数据库

本文介绍了如何使用 Go 语言连接 MySQL 数据库,并执行基本的数据库操作。通过上述示例代码,你可以轻松地创建、插入、查询和更新数据库中的数据。希望这篇文章能帮助你更好地理解和使用 Go 语言进行数据库操作。如果你有任何问题或建议,欢迎在评论区留言。

2024-07-14 23:18:25 313

原创 【Go】如何使用Go语言打包不同平台的代码

通过设置 GOOS 和 GOARCH,Go语言使得跨平台编译变得非常简单。此外,使用 GoReleaser 可以进一步简化多平台构建和发布流程。希望本文能帮助你更好地理解如何使用Go语言打包不同平台的代码,并为你的开发工作提供便利。如果你有任何问题或建议,欢迎在评论区留言。

2024-07-14 23:14:26 345

原创 【toutiao_PC】今日头条PC端爬虫采集案例_2024-07-14_更新_a_bogus_msToken

张碧晨/王赫野《何物》我白天是个 搞笑废物。我曾经是个 感性动物。

2024-07-14 23:10:27 181

原创 【Python】 深入了解 Python 字典的 | 更新操作

在 Python 3.9 之前,合并两个字典通常需要使用 update() 方法或解构语法。Python 3.9 引入了新的 | 运算符,使得合并字典变得更加简洁和直观。Python 3.9 引入的字典 | 更新操作为字典的合并提供了一种简洁、直观的方式。与传统的 update() 方法相比,它不仅代码更简洁,而且在某些场景下性能更佳。如果你正在使用 Python 3.9 或更高版本,强烈推荐使用这种新特性来处理字典的合并操作。

2024-07-14 23:07:11 970

原创 【Go】使用Go语言连接mysql数据库

【代码】【Go】使用Go语言连接mysql数据库。

2024-07-10 21:24:05 392

原创 【Tools】wxapkg是什么格式的文件

wxapkg 文件是微信小程序的打包文件格式,用于将小程序的代码和资源文件打包在一起,以便发布和分发。如果你有更多关于微信小程序开发的问题或需要进一步的帮助,请随时告诉我!

2024-07-08 22:24:31 579

原创 【Javascript】微信小程序项目结构目录详解

理解微信小程序的项目结构和各个文件的作用,是开发高质量小程序的基础。通过本文的介绍,希望能帮助你更好地理解和使用微信小程序开发工具,为你的开发工作提供便利。

2024-07-08 20:51:55 1060

原创 【Scrapy】深入了解 Scrapy 中间件中的 process_spider_output 方法

process_spider_output 方法是爬虫中间件的一部分,当爬虫的 parse 方法生成 Items 或 Requests 后,该方法会被调用。这个方法可以用来过滤、修改或扩展爬虫生成的结果。过滤结果:根据特定条件筛选出不需要的 Items 或 Requests。修改结果:对生成的 Items 或 Requests 进行修改。扩展结果:在生成的结果中添加额外的 Items 或 Requests。

2024-07-07 21:19:09 670

原创 【Scrapy】 深入了解 Scrapy 中间件中的 process_spider_input 方法

process_spider_input 方法是爬虫中间件的一部分,当 Scrapy 接收到响应并准备传递给爬虫的 parse 方法之前调用。这个方法可以用来过滤响应、修改响应内容或执行其他预处理操作。过滤响应:根据特定条件筛选出不需要处理的响应。修改响应:在响应到达爬虫之前对其内容进行修改或增强。错误处理:捕获和处理响应中的错误或异常。

2024-07-07 21:16:41 893

原创 【Tools】了解人工通用智能 (AGI):未来的智能体

人工通用智能(Artificial General Intelligence,AGI)是指一种能够理解、学习和应用知识,具有像人类一样广泛和通用的认知能力的智能系统。与专门处理特定任务的人工智能(AI)不同,AGI 能够处理多种任务和问题,并且可以在不同的环境中自主学习和适应。

2024-07-07 21:11:09 444

原创 【yarn】使用 Yarn 进行包管理:安装与配置指南

准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近🎵 陈慧娴《傻女》Yarn 是一个快速、可靠和安全的 JavaScript 包管理器,由 Facebook 开发和维护。它提供了一种更快、更一致和更安全的方式来管理项目的依赖。本文将详细介绍如何安装和配置 Yarn,以便在项目中使用它进行包管理。

2024-07-07 21:06:53 663

原创 【Scrapy】 深入了解 Scrapy 下载中间件的 process_exception 方法

process_exception 方法是下载中间件的一部分,当下载请求期间发生异常时会调用该方法。这个方法可以用来处理异常、记录日志、重试请求或执行其他自定义操作。异常处理:捕获和处理在下载过程中发生的异常。记录日志:记录异常信息,方便调试和监控。重试请求:根据特定条件决定是否重试请求。修改请求:在重试之前修改请求参数,如代理、头信息等。

2024-07-07 21:01:54 763

原创 【Scrapy】深入了解 Scrapy 下载中间件的 process_response 方法

process_response 方法是下载中间件的一部分,用于在 Scrapy 接收到响应后对响应进行处理。这个方法可以用来修改响应、进行错误处理、数据清洗等操作。修改响应:更改响应内容,如修改 HTML 或 JSON 数据。错误处理:根据响应状态码或内容执行相应的错误处理逻辑。数据清洗:在将响应数据传递给爬虫前进行预处理,如删除不需要的标签或字段。

2024-07-07 20:59:16 895

原创 【Scrapy】 深入了解 Scrapy 下载中间件的 process_request 方法

process_request 方法是下载中间件的一部分,用于在 Scrapy 发出请求之前对请求进行处理。这个方法可以用来修改请求、添加额外的头信息、设置代理等操作。修改请求:更改请求的 URL、方法、头信息等。设置代理:为请求设置代理服务器,以隐藏真实 IP 地址。添加 Cookie:在请求中添加 Cookie 信息。拦截请求:根据特定条件拦截并处理请求,避免发送不必要的请求。

2024-07-07 20:56:12 692

原创 【Scrapy】深入了解 Scrapy 下载中间件中的 from_crawler 方法

from_crawler 是一个类方法,用于初始化中间件实例,并将 Scrapy 的 Crawler 对象传递给它。Crawler 对象包含了整个 Scrapy 运行时环境,包括配置、信号和扩展等。通过 from_crawler 方法,中间件可以轻松访问这些资源,从而实现更复杂的功能。假设我们要编写一个自定义的下载中间件,用于随机更换代理。我们希望代理列表可以从 Scrapy 的设置中获取,并且在每次请求时随机选择一个代理。# 获取 Scrapy 配置中的代理列表。

2024-07-07 20:53:23 801

原创 【Scrapy】随机更换代理中间件

【代码】【Scrapy】随机更换代理中间件。

2024-07-07 20:50:30 417

原创 【scrapy】随机更换User-Agent中间件

【代码】【scrapy】随机更换User-Agent中间件。

2024-07-07 20:48:46 330

原创 【Scrapy】Scrapy 中间件等级设置规则

中间件是 Scrapy 中的一种钩子,允许用户在处理请求和响应时执行自定义代码。Downloader Middleware:处理下载器相关的请求和响应。Spider Middleware:处理爬虫(spider)相关的输入和输出。

2024-07-07 20:47:02 512

原创 【Scrapy】 Scrapy 爬虫框架

准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近🎵 陈慧娴《傻女》Scrapy 是一个用于提取网页数据的开源和协作爬虫框架。它是由 Python 编写的,设计用于高效地从网站中提取数据。Scrapy 提供了一种简单、灵活和可扩展的方式来创建网页爬虫,并且在处理复杂网站时特别强大。

2024-07-07 20:43:14 1353

原创 【Tools】AIGC:人工智能生成内容的新时代

AIGC 是指利用人工智能技术生成各种类型的内容。与传统的内容生成方式不同,AIGC 可以在没有人为干预的情况下自动创作内容。这种自动化生成的能力使得 AIGC 在多个领域展现出巨大的潜力和应用价值。AIGC 作为人工智能技术的一个重要应用领域,正在改变着我们创造和消费内容的方式。通过利用自然语言处理、计算机视觉、深度学习和生成对抗网络等技术,AIGC 实现了高效的内容生成,为多个行业带来了创新和变革。未来,随着技术的进步和应用的深入,AIGC 将在更多领域中发挥更大的作用,推动社会的进步与发展。

2024-06-30 19:22:47 431

原创 【Tools】微软 Edge 浏览器全解析

微软 Edge 浏览器以其高性能、安全性和丰富的功能,成为了现代浏览器中的一支重要力量。无论是日常浏览、工作研究还是娱乐消遣,Edge 都能提供优秀的使用体验。通过本文的介绍,希望用户能够全面了解并有效利用 Edge 浏览器,为自己的互联网生活带来更多便利和乐趣。

2024-06-30 19:19:07 829

原创 【Tools】 Postman 接口测试工具详解

Postman 是一款用于开发、测试和文档化API的工具。它提供了简洁的界面和丰富的功能,使用户能够方便地发送HTTP请求、查看响应、编写测试脚本,并自动生成API文档。Postman支持各种类型的HTTP请求,包括GET、POST、PUT、DELETE等,适用于RESTful和SOAP等不同类型的API。Postman 是一款功能强大且易于使用的接口测试工具,适用于API开发和测试的各个阶段。

2024-06-30 19:17:12 880

逆向-音乐学家方大刚-快速定位hashMap

逆向-音乐学家方大刚-快速定位hashMap

2024-03-16

逆向案例2-方大刚-动态调用

逆向案例2-方大刚-动态调用

2024-03-15

逆向案例-frida-demo-apk-01

逆向案例-frida-demo-apk-01

2024-03-13

python自动化工具Selenium与playwright去除webdriver检测

自动化工具Selenium与playwright去除webdriver检测js

2024-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除