晦涩难董先生
码龄4年
关注
提问 私信
  • 博客:303,399
    问答:46
    动态:14
    303,459
    总访问量
  • 211
    原创
  • 53,522
    排名
  • 4,896
    粉丝

个人简介:it摸金

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2021-03-31
博客简介:

晦涩难董先生

查看详细资料
  • 原力等级
    领奖
    当前等级
    6
    当前总分
    2,145
    当月
    30
个人成就
  • 获得4,264次点赞
  • 内容获得61次评论
  • 获得3,455次收藏
  • 代码片获得2,104次分享
创作历程
  • 121篇
    2024年
  • 87篇
    2023年
  • 3篇
    2022年
成就勋章
TA的专栏
  • scrapy爬虫开发
    81篇
  • 爬虫数据之peewee
    10篇
  • 爬虫部署之Docker
    10篇
  • 爬虫之JavaScript
    10篇
  • 数据分析pandas
    16篇
  • redis高级
    26篇
  • 逆向JS见闻录
    8篇
  • app逆向
    11篇
兴趣领域 设置
  • Python
    python
  • 编程语言
    javajavascript
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

爬虫工程师---如何用charles把scrapy的爬虫监控起来调试

想法是,通过charles挂上'魔法工具',然后跑代码的时候,实时监控每一个访问的请求状态和返回是个啥?原理其实和挂手机等一样的;但是,我想说的,让scrapy挂上charles...
原创
发布博客 2024.05.17 ·
818 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

爬虫工作量由小到大的思维转变---<第七十六章 > Scrapy爬虫引入Item Drop机制的概念及其价值

在Scrapy框架中,DropItem机制提供了一种有效的数据过滤和控制方式。具体来说,它是一种基于条件的数据丢弃机制,用于在数据处理流程中筛选出不需要的Item。当爬虫抓取到数据后,数据会被封装成Item的形式,在数据流经Scrapy的处理流程时,我们可以根据不同的需求对这些Item进行检查,并决定哪些Item应当继续被处理,哪些应当被丢弃。在技术实现上,DropItem是通过在Item Pipeline中抛出DropItem异常来完成的。
原创
发布博客 2024.05.16 ·
1373 阅读 ·
27 点赞 ·
0 评论 ·
22 收藏

向爬虫而生---Redis 实战篇1 动态Redis连接管理在Python中的实践

随着互联网技术的飞速发展,数据处理和存储在Web开发和大数据处理领域中的重要性日益凸显。特别是对于如Redis这样的内存数据结构存储系统而言,其在处理大量数据时显得尤为关键。正因如此,对于管理与Redis实例连接的需求也随之增长,尤其是在应用规模不断拓展、数据量日益增加的今天,单一的Redis实例已经难以满足复杂的数据处理需求。在这种情况下,"动态Redis连接管理"成为了解决这一问题的重要手段。通过动态连接管理,我们可以根据实时的应用需求和资源状态,灵活地创建、复用或关闭与Redis实例的连接。
原创
发布博客 2024.05.16 ·
1112 阅读 ·
26 点赞 ·
0 评论 ·
28 收藏

爬虫工作量由小到大的思维转变---<第七十五章 > Scrapy爬虫回调函数在请求重试中的应用研究

在Scrapy框架中,中间件重试机制是指系统自带的一个功能,它能在请求因为某些原因失败时自动进行重试。比如说,如果因为网络问题或者服务器暂时不可用导致请求失败,Scrapy会根据设定的重试次数和重试间隔自动重新发起请求。使用这个机制,你只需要在项目的设置里做些简单的配置,比如设置最大重试次数,而无需在代码中明确编写重试逻辑。想象我们现在面对的是一个在线图书商城,该商城的书评信息是通过动态加载的方式展现的,而且每次只能通过修改POST请求的参数来获取不同页码的书评数据。
原创
发布博客 2024.05.14 ·
1393 阅读 ·
26 点赞 ·
5 评论 ·
12 收藏

爬虫工作量由小到大的思维转变---<第七十四章 > Scrapy爬虫关闭方法(close)的机制及其在爬虫优化中的重要性

Scrapy,这个名字在数据提取界就如同波音747在航空业的地位一样,是数据提取领域的巨头之一。想象一下,Scrapy就像一架精密的飞机,在广阔的互联网空间中进行着数据的搜集之旅。而在这架飞机中,爬虫(Spider)便是执行任务的飞行员,负责确切的导航,把握方向,搜寻和采集数据。飞机从起飞到降落,要经过起飞、飞行、降落三个阶段,而Scrapy爬虫的生命周期也大体相似。
原创
发布博客 2024.05.14 ·
960 阅读 ·
17 点赞 ·
0 评论 ·
24 收藏

爬虫工作量由小到大的思维转变---<第七十三章 > Scrapy爬虫详解一下HTTPERROE的问题

当status在【200,300】内的时候,直接返回(无异常);当status开始出现问题的时候,看你是否设置允许状态码;--- 在spider里面,发送请求的时候会在mata里面带着或者-->如果是all,表示所有的状态码都不会引发httpError的问题;而handle_httpstatus_list则是需要在集合里面设置对应允许的一些状态码;--- 也可以直接在setting里面直接进行的设置;(如图)
原创
发布博客 2024.05.13 ·
925 阅读 ·
28 点赞 ·
0 评论 ·
31 收藏

github-push遇到的Failed to connect to 127.0.0.1 port 1081 after 2069 ms: Couldn‘t connect to server

新开了个项目,在进行推送的时候,忽然出现这个问题:查阅很多人写的,都不得法;觉得需要从本质上解决一下,所以记录下来;
原创
发布博客 2024.05.13 ·
281 阅读 ·
8 点赞 ·
0 评论 ·
4 收藏

抓包证书安装到安卓7.0+手机

首先理解一下,这个不只是证书到浏览器,而是抓包证书到安卓7.0+手机上的文章;还有一点区分,在浏览器上装的证书,只是让抓包工具可以抓取手机浏览器的包,而不是抓取手机app上的包;如果你的证书只是简单的在浏览器下进行安装,那么你的手机app是走不了代理网络的;因此,本章也就是继续,进行深一步的前期步骤!
原创
发布博客 2024.05.05 ·
1510 阅读 ·
12 点赞 ·
0 评论 ·
15 收藏

Fiddler工具的操作和功能时-----定位到步骤图(助力抓包)

我们深入探究了Fiddler工具中关键功能的操作方法和作用。首先,我们探讨了过滤器和断点调试功能,这些功能使用户能够根据特定条件过滤请求和响应数据,并在请求过程中暂停以检查数据,从而有针对性地进行网络调试和分析。接着,我们详细介绍了Fiddler中的自动响应和Composer工具,这些功能允许用户模拟服务器响应、手动创建和发送自定义的HTTP请求,以进行测试和验证应用程序的网络交互。通过合理使用这些功能,开发人员可以更高效地进行网络调试,优化应用程序性能,提升用户体验。
原创
发布博客 2024.04.14 ·
1105 阅读 ·
31 点赞 ·
0 评论 ·
25 收藏

爬虫工作量由小到大的思维转变---<第七十二章 > Scrapy爬虫中间件和下载中间件的不同之处:响应处理方式的比较(2)

位于请求和响应之间的关键位置,用于干预爬虫的逻辑层面,可根据特定爬虫或请求选择性处理响应,提高数据处理的准确性和灵活性。处理全局性的请求和响应,主要用于在请求发出和响应返回之间进行统一处理,可统一处理所有请求的响应内容,提高整体系统的效率。爬虫中间件和下载中间件在处理方式上有明显差异,根据实际需求来选择合适的中间件类型将更有利于优化数据采集和处理流程。合理利用这两种中间件,开发者可以更好地管理和处理爬虫系统的数据,提高爬取效率、灵活性和稳定性,从而实现更有效的数据采集和处理目标。
原创
发布博客 2024.04.14 ·
1444 阅读 ·
29 点赞 ·
0 评论 ·
17 收藏

爬虫工作量由小到大的思维转变---<第七十一章 > Scrapy爬虫中间件和下载中间件的不同之处:响应处理方式的比较

在本文中,我们深入探讨了爬虫中间件与下载中间件在接收响应方面的不同之处。爬虫中间件针对特定爬虫或请求进行响应处理,具有灵活性和个性化特点;而下载中间件则全局性地处理所有请求和响应内容,实现统一的处理策略。爬虫中间件更注重个性化处理响应内容与逻辑,而下载中间件更关注对所有请求的全局性响应处理。通过代码示例,我们展示了两种中间件的不同运作方式和应用场景。深入了解这些差异有助于优化爬虫的数据处理效率和质量,提升开发者对Scrapy框架的应用技能。
原创
发布博客 2024.04.14 ·
1168 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

爬虫之数据神器10---Peewee实现ORM的核心原理

在Peewee中,模型的定义是通过模型元类(ModelMetaclass)实现的。Peewee利用Python的元类机制,在模型类定义中使用特殊的元类来创建模型类。下面我们将详细介绍模型元类的实现原理。有了模型元类和字段描述符的支持,我们可以定义模型类了。在这个示例中,我们定义了一个名为User的模型类。通过在模型类中定义字段,我们可以指定每个字段的数据类型和验证规则。例如,id字段使用username字段使用CharFieldemail字段使用EmailFieldcreated_at字段使用。
原创
发布博客 2024.04.09 ·
972 阅读 ·
34 点赞 ·
0 评论 ·
13 收藏

Fiddle配置代理,保手机模拟器访问外部网络

fiddle连接mumu模拟器到adb连接成功,保姆级_fiddler抓包模拟器-CSDN博客在现代的移动应用程序开发中,模拟器成为了一个必不可少的工具。而Mumu模拟器是一个非常受欢迎的选择,它提供了稳定的性能和丰富的功能。然而,要在模拟器上进行调试和测试,你需要将它与ADB连接起来。首先,我将解释如何设置Fiddle,并确保你的Mumu模拟器和ADB都正确地安装并运行。然后,我将带领你一步步完成连接的过程,包括配置ADB连接选项和启用设备调试模式。
原创
发布博客 2024.04.09 ·
823 阅读 ·
31 点赞 ·
0 评论 ·
15 收藏

爬虫之数据神器9---Peewee集成Django/Flask框架详解

对于简单项目或原型开发,Django ORM提供了全面的功能和便利的操作。高性能和定制需求的场景中,Peewee是一个更轻量级和灵活的选择。在需要连接多个数据库的情况下,可以根据具体需求选择合适的ORM框架进行连接。通过合理分配ORM的使用场景,我们可以根据项目的规模、复杂性和性能需求选择合适的工具,并编写高效、优雅的代码。
原创
发布博客 2024.04.08 ·
1056 阅读 ·
23 点赞 ·
0 评论 ·
15 收藏

爬虫之数据神器8---Peewee性能优化技巧指南(2)

这些是一些Peewee性能优化的技巧,通过使用缓存、索引、批量插入、预先加载关联数据和原生查询,可以显著提高Peewee应用程序的性能和响应能力。根据具体的场景和需求,选择适合的优化方法,能有效地提升应用程序的性能。通过使用批量插入和更新操作,以及正确管理事务,可以提高数据库操作的性能、稳定性和一致性。对于频繁的数据库操作和需要保证一致性的操作,建议使用这些技巧来优化Peewee应用程序。Peewee中的缓存优化和批量操作与事务管理技巧。
原创
发布博客 2024.04.08 ·
1191 阅读 ·
19 点赞 ·
0 评论 ·
15 收藏

爬虫之数据神器7---Peewee性能优化技巧指南(1)

用到以上的功能,你将能够明显提升Peewee应用程序的查询性能,使其更高效地处理大型数据集和高并发负载。无论是选择合适的查询方法,优化查询语句,还是利用延迟加载和原生SQL语句,都可以为你的应用程序带来显著的性能提升。本文介绍了Peewee的性能优化技巧,主要集中在查询性能和数据库连接管理两个方面。在查询性能方面,选择适当的查询方法、优化查询语句、利用延迟加载和使用原生SQL语句进行复杂查询等技巧。这些技巧通过提高查询效率、减少数据库访问次数和数据加载量等方式,显著提升了应用程序的查询性能。
原创
发布博客 2024.04.06 ·
1516 阅读 ·
18 点赞 ·
1 评论 ·
10 收藏

爬虫之数据神器6---Peewee数据迁移最佳实践

Peewee提供了一个数据库迁移的解决方案 - peewee_migrate。它是一个轻量级的迁移插件,可以帮助我们进行Peewee模型的平滑迁移。使用peewee_migrate,我们只需要编写迁移文件描述每个版本的模型变更,它会自动帮我们计算出需要执行的SQL语句,来逐步升级或回滚数据库。peewee_migrate的主要特点包括:简单的迁移语法,易于上手自动生成执行迁移需要的SQL支持增量式小幅迁移可以回滚到任意版本支持MySQL、Postgres等多种数据库# 创建迁移历史表。
原创
发布博客 2024.04.06 ·
3964 阅读 ·
22 点赞 ·
0 评论 ·
9 收藏

爬虫之数据神器5---Peewee数据库关系映射实践

这篇文章通过丰富的案例,全面介绍了Python ORM框架Peewee的高级用法。文章首先介绍了模型的CRUD操作,以及使用查询表达式实现复杂查询的方法。然后讲解了Peewee的高级查询功能,如使用Q对象进行组合查询,使用prefetch提高关联查询效率等。接着文章讲解了模型之间的关联操作,讲解非常透彻。最后两章讲解了Peewee的事务管理以及优化手段。----比如使用Q对象和prefetch可以写出更优雅高效的代码,事务可以保证数据操作的原子性,添加索引、优化字段等可以提升实际效率。
原创
发布博客 2024.04.05 ·
1117 阅读 ·
15 点赞 ·
0 评论 ·
11 收藏

爬虫之数据神器4---Peewee事务管理和连接池用法

事务是作为一个逻辑单元执行的一系列数据库操作的集合。它们具有原子性、一致性、隔离性和持久性的特性,通常简称为ACID特性。原子性(Atomicity)确保事务中的所有操作要么全部成功,要么全部失败。如果任何一个操作失败,整个事务将被回滚到起始点,以保持数据的一致性。一致性(Consistency)确保在事务开始之前和之后,数据库中的数据保持一致状态。这意味着在一个事务中对数据的任何修改都必须满足数据库的约束和规则。隔离性(Isolation)确保在多个并发事务同时执行时,每个事务都被视为独立的。
原创
发布博客 2024.04.05 ·
1480 阅读 ·
32 点赞 ·
0 评论 ·
22 收藏

爬虫之数据神器3---Peewee模型定义详解

在现代软件开发中,数据是不可或缺的一部分,而对象关系映射(ORM)技术的出现使得与数据库交互变得更加简洁和高效。ORM技术将数据库表和数据记录映射为面向对象的模型和实例,使开发者能够通过编写代码来操作数据库,而无需直接使用SQL语句。ORM的关键思想是将数据库操作转化为面向对象的操作,即将数据库中的表映射为类,表中的字段映射为类中的属性,以及数据库中的记录映射为类的实例。这样,开发者可以通过编写简洁、易于理解的面向对象的代码来进行数据的增删改查。
原创
发布博客 2024.04.04 ·
931 阅读 ·
10 点赞 ·
0 评论 ·
29 收藏
加载更多