
爬虫
文章平均质量分 59
Python爬虫
音乐学家方大刚
这个作者很懒,什么都没留下…
展开
-
【Scrapy】深入了解 Scrapy 中间件中的 process_spider_output 方法
process_spider_output 方法是爬虫中间件的一部分,当爬虫的 parse 方法生成 Items 或 Requests 后,该方法会被调用。这个方法可以用来过滤、修改或扩展爬虫生成的结果。过滤结果:根据特定条件筛选出不需要的 Items 或 Requests。修改结果:对生成的 Items 或 Requests 进行修改。扩展结果:在生成的结果中添加额外的 Items 或 Requests。原创 2024-07-07 21:19:09 · 766 阅读 · 0 评论 -
【Scrapy】 深入了解 Scrapy 中间件中的 process_spider_input 方法
process_spider_input 方法是爬虫中间件的一部分,当 Scrapy 接收到响应并准备传递给爬虫的 parse 方法之前调用。这个方法可以用来过滤响应、修改响应内容或执行其他预处理操作。过滤响应:根据特定条件筛选出不需要处理的响应。修改响应:在响应到达爬虫之前对其内容进行修改或增强。错误处理:捕获和处理响应中的错误或异常。原创 2024-07-07 21:16:41 · 975 阅读 · 0 评论 -
【Scrapy】 深入了解 Scrapy 下载中间件的 process_exception 方法
process_exception 方法是下载中间件的一部分,当下载请求期间发生异常时会调用该方法。这个方法可以用来处理异常、记录日志、重试请求或执行其他自定义操作。异常处理:捕获和处理在下载过程中发生的异常。记录日志:记录异常信息,方便调试和监控。重试请求:根据特定条件决定是否重试请求。修改请求:在重试之前修改请求参数,如代理、头信息等。原创 2024-07-07 21:01:54 · 940 阅读 · 0 评论 -
【Scrapy】深入了解 Scrapy 下载中间件的 process_response 方法
process_response 方法是下载中间件的一部分,用于在 Scrapy 接收到响应后对响应进行处理。这个方法可以用来修改响应、进行错误处理、数据清洗等操作。修改响应:更改响应内容,如修改 HTML 或 JSON 数据。错误处理:根据响应状态码或内容执行相应的错误处理逻辑。数据清洗:在将响应数据传递给爬虫前进行预处理,如删除不需要的标签或字段。原创 2024-07-07 20:59:16 · 1078 阅读 · 0 评论 -
【Scrapy】 深入了解 Scrapy 下载中间件的 process_request 方法
process_request 方法是下载中间件的一部分,用于在 Scrapy 发出请求之前对请求进行处理。这个方法可以用来修改请求、添加额外的头信息、设置代理等操作。修改请求:更改请求的 URL、方法、头信息等。设置代理:为请求设置代理服务器,以隐藏真实 IP 地址。添加 Cookie:在请求中添加 Cookie 信息。拦截请求:根据特定条件拦截并处理请求,避免发送不必要的请求。原创 2024-07-07 20:56:12 · 904 阅读 · 0 评论 -
【Scrapy】深入了解 Scrapy 下载中间件中的 from_crawler 方法
from_crawler 是一个类方法,用于初始化中间件实例,并将 Scrapy 的 Crawler 对象传递给它。Crawler 对象包含了整个 Scrapy 运行时环境,包括配置、信号和扩展等。通过 from_crawler 方法,中间件可以轻松访问这些资源,从而实现更复杂的功能。假设我们要编写一个自定义的下载中间件,用于随机更换代理。我们希望代理列表可以从 Scrapy 的设置中获取,并且在每次请求时随机选择一个代理。# 获取 Scrapy 配置中的代理列表。原创 2024-07-07 20:53:23 · 1091 阅读 · 0 评论 -
【Scrapy】随机更换代理中间件
【代码】【Scrapy】随机更换代理中间件。原创 2024-07-07 20:50:30 · 457 阅读 · 0 评论 -
【scrapy】随机更换User-Agent中间件
【代码】【scrapy】随机更换User-Agent中间件。原创 2024-07-07 20:48:46 · 399 阅读 · 0 评论 -
【Scrapy】Scrapy 中间件等级设置规则
中间件是 Scrapy 中的一种钩子,允许用户在处理请求和响应时执行自定义代码。Downloader Middleware:处理下载器相关的请求和响应。Spider Middleware:处理爬虫(spider)相关的输入和输出。原创 2024-07-07 20:47:02 · 619 阅读 · 0 评论 -
【Scrapy】 Scrapy 爬虫框架
准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近🎵 陈慧娴《傻女》Scrapy 是一个用于提取网页数据的开源和协作爬虫框架。它是由 Python 编写的,设计用于高效地从网站中提取数据。Scrapy 提供了一种简单、灵活和可扩展的方式来创建网页爬虫,并且在处理复杂网站时特别强大。原创 2024-07-07 20:43:14 · 1601 阅读 · 0 评论 -
【爬虫】基站信息采集案例
经历绝望不再逞强不想去圆场。是不是爱你我还算有点天分。我有点疼但是我还能忍。我们都一样想留住月光。我们都一样不卑也不亢。原创 2024-04-11 23:47:05 · 307 阅读 · 0 评论 -
【爬虫】在Scrapy中配置随机User-Agent中间件
为了更进一步模拟真实用户的行为,我们可以创建一个中间件来为每个请求随机设置不同的UA。安装fake_useragent首先,安装fake_useragent库,它提供了一个大量常见浏览器UA的列表,支持随机获取UA。创建随机UA中间件在Scrapy项目的middlewares.py文件中,创建一个新的中间件类RandomUserAgentMiddleware。# 为每个请求随机设置一个UA配置中间件。原创 2024-04-10 22:43:14 · 2006 阅读 · 0 评论 -
【Python】探索Python中的aiohttp:构建高效并发爬虫
aiohttp是一个提供异步Web服务的库,支持客户端和服务端的Web编程。它允许你使用async/await语法发起异步网络请求,是构建高效并发爬虫的理想选择。原创 2024-04-07 20:29:04 · 627 阅读 · 0 评论 -
【python】Ubuntu使用playwright环境配置
愿晚风心里吹吹散我的泪似风筝把你追愿等你一辈子真情留住你梦里归家那一扇灯心中所属唯独你不管天似海深今生再没遗憾即使分开仍念记伤心得你恻隐温馨我这半生🎵 阿梨粤《晚风心里吹》Playwright 是一个由 Microsoft 开发的开源自动化库,它允许开发者以编程方式控制 Chromium, Firefox, 和 WebKit 这样的现代浏览器。Playwright 能够执行跨浏览器的端到端测试,非常适合自动化测试、爬虫开发以及生成网页截图和 PDF。原创 2024-04-02 17:49:58 · 2851 阅读 · 0 评论 -
【APP_TYC】数据采集案例天眼APP查_查壳脱壳反编译_③
Frida-dexDump简介Frida-dexDump是基于Frida的一个工具,Frida是一个著名的动态代码插桩工具,允许研究员挂钩到应用程序的运行过程中。Frida-dexDump利用Frida的能力,专注于自动化提取Android应用中的Dex文件,这对于后续的逆向工程分析至关重要。Frida-dexDump的工作原理Frida-dexDump通过在运行时挂钩到Android应用的关键函数(如加载Dex文件的函数)来工作。原创 2024-03-28 09:58:02 · 586 阅读 · 1 评论 -
【Python】定时更换clashx工具
【代码】【Python】定时更换ip工具。原创 2024-03-27 22:47:18 · 2130 阅读 · 2 评论 -
【APP_TYC】数据采集案例天眼APP查_抓包分析_②
追寻啊 你身影千年 恳请宿命怜无尽日夜 只为见你一面我愿化作 窗外的桑花朝朝暮暮 都有我牵挂无论冬雪秋沙 海角天涯缱绻不尽 念你啊倘若化作 林间的桑花借一暖风 赠你梦如画纵使悲忧如雪 一笑融化🎵 Joysaaaa《朝朝如念》原创 2024-03-27 22:34:23 · 597 阅读 · 1 评论 -
【APP_TYC】数据采集案例天眼APP查_抓包分析_①
一杯敬朝阳 一杯敬月光唤醒我的向往 温柔了寒窗于是可以不回头地逆风飞翔不怕心头有雨 眼底有霜一杯敬故乡 一杯敬远方守着我的善良 催着我成长所以南北的路从此不再漫长灵魂不再无处安放🎵 毛不易《消愁》原创 2024-03-26 11:42:34 · 1774 阅读 · 0 评论 -
【Python】 Python脚本实现某平台视频流下载
通过上述Python脚本,我们可以轻松地下载m3u8格式的视频流,并将其合并成一个完整的视频文件。这个过程不仅有助于视频内容的离线观看,也为视频内容的分析和处理提供了便利。希望这篇博客能够帮助到有类似需求的读者。原创 2024-03-25 23:59:27 · 795 阅读 · 0 评论 -
【逆向】利用Objection实现移动应用抓取https流量
Objection是一个功能强大的工具,可以帮助开发者和安全研究人员在不越狱或root的情况下对移动应用进行深入的安全审计。通过与MITM工具结合使用,Objection可以有效地协助进行抓包分析,揭示应用的网络通信细节和安全漏洞。希望本文能帮助你掌握使用Objection进行移动应用抓包的技能。原创 2024-03-25 23:16:31 · 812 阅读 · 0 评论 -
【爬虫】Selenium打开新tab页
如果说 你曾苦过我的甜我愿活成你的愿愿不枉啊 愿勇往啊这盛世每一天山河无恙 烟火寻常可是你如愿的眺望孩子们啊 安睡梦乡像你深爱的那样🎵 王菲《如愿》在自动化测试和网页抓取中,Selenium WebDriver 是一个强大的工具,能够模拟用户在浏览器中的各种操作。本文将围绕使用 Selenium 打开新窗口、捕获屏幕截图以及避免截图错误这一主题进行探讨,分享一些实用技巧和最佳实践。原创 2024-03-22 06:19:06 · 1761 阅读 · 0 评论 -
【爬虫】 突破Cloudflare 5秒盾的艺术:使用Cloudscraper
无心生大用,有物不通神🎵 闪现吃血王昭君《道德经》在当今的互联网世界中,保护网站免受恶意访问变得尤为重要。Cloudflare是一种流行的解决方案,提供了多种安全功能,包括一个被广泛称为"5秒盾"(5 Second Challenge)的机制。这个机制要求访问者等待5秒钟,Cloudflare在这期间验证访问者不是机器人。这对于人类用户来说可能只是轻微不便,但对于需要自动化抓取网站数据的开发者来说,则可能成为一个大问题。本文将探讨如何使用Python库Cloudscraper来突破这一防御机制。原创 2024-03-19 21:48:27 · 7499 阅读 · 0 评论 -
【逆向】深入了解 Frida 中的 Java.choose 方法:动态选择实例
Java.choose 方法是 Frida 中用于动态选择特定类实例的函数。通过 Java.choose 方法,我们可以在运行时遍历所有符合条件的类实例,并对其进行操作。这对于那些无法直接获取到实例引用的场景非常有用。方法是 Frida 中非常有用的函数,可以帮助我们动态选择特定类实例并进行操作。通过方法,我们可以在运行时对应用程序的特定实例进行操作,而不需要直接获取到实例的引用。然而,在使用方法时,我们需要注意确保选择的实例符合预期,并且避免对不相关的实例进行操作,以避免造成不必要的影响。原创 2024-03-13 13:17:36 · 2345 阅读 · 0 评论 -
【逆向】深入了解安卓应用程序钩子技术:使用Frida进行钩子
安卓钩子技术是指通过修改或者监视应用程序在运行时的行为,来实现特定目的的一种技术。这种技术通常用于安全审计、应用程序逆向工程、修改应用程序行为等方面。在安卓开发中,我们可以通过 Frida 这样的工具来进行钩子操作。Frida 是一种强大的动态分析工具,支持多平台,包括安卓和 iOS。它提供了一组功能强大的 API,可以让开发者轻松地进行应用程序的动态分析和修改。通过 Frida,我们可以实现诸如监视函数调用、修改函数参数、修改返回值等功能,从而达到我们想要的目的。原创 2024-03-13 12:47:38 · 689 阅读 · 0 评论 -
【python】自动化工具Selenium与playwright去除webdriver检测
多少人为生命在努力勇敢的走下去。对这个世界如果你有太多的抱怨。为什么人要这么的脆弱 堕落。跌倒了就不敢继续往前走。珍惜一切 就算没有拥有。原创 2024-03-12 23:28:57 · 1965 阅读 · 0 评论 -
【Python】探索PyPinyin 库:Python 中的中文拼音转换工具
通过以上案例,我们了解了 PyPinyin 库的基本用法,并展示了它在不同场景下的应用。无论是进行中文文本处理还是构建拼音检索系统,PyPinyin 都是一个强大而方便的工具,为我们的 Python 开发带来了便利与效率。原创 2024-03-12 19:10:08 · 1386 阅读 · 0 评论 -
【Python】Python 根据经纬度切分从Openstreet下载的pbf路网文件
PBF 文件是一种紧凑的二进制格式,可以有效地存储和传输大量地理数据。但是,PBF 文件可能非常大,特别是对于覆盖大区域的数据集。在某些情况下,您可能只对 PBF 文件中特定区域的数据感兴趣。在这种情况下,您可以使用工具将 PBF 文件剪切为较小的区域。OpenStreetMap (OSM) 是一个协作式的开放地图项目,其中包含了全球各地的地理数据。使用 OSM2RN,您可以轻松地将 OSM PBF 文件剪切为特定区域。的新 PBF 文件,其中包含北京的 OSM 数据。是要剪切的 PBF 文件的路径。原创 2024-03-09 20:22:49 · 1080 阅读 · 0 评论 -
【Python】Python Astar算法生成最短路径GPS轨迹
最短路径问题是计算机科学中一个经典问题,它涉及找到图中两点之间距离最短的路徑。在实际应用中,最短路径算法用于解决广泛的问题,例如导航、物流和网络优化。通过遵循这些步骤,你可以使用 Python 和 NetworkX 生成最短路径。由于图中的路径通常链接节点,我们需要找到起点和终点最近的节点。要计算最短路径,我们需要一个表示道路网络的图。最后,我们可以使用 Matplotlib 绘制最短路径。接下来,我们需要定义起点和终点坐标。现在,我们可以使用 NetworkX 的。函数计算起点和终点节点之间的最短路径。原创 2024-03-09 20:09:03 · 941 阅读 · 6 评论 -
【汽修帮手】数据采集,爬虫,根据pdf文件流合并pdf文件
【代码】【汽修帮手】数据采集,爬虫,根据pdf文件流合并pdf文件。原创 2024-02-29 00:19:04 · 1779 阅读 · 0 评论 -
【Python爬虫】requests库get和post方法使用
requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容。原创 2024-02-21 10:52:15 · 3281 阅读 · 0 评论 -
selenium被识别,修改navigator的方法
# -*- coding:utf-8 -*-import timefrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()# chrome_options.add_argument('--headless')# chrome_options.add_argument('--no-sandbox')chrome_options.add原创 2021-01-13 09:46:59 · 2228 阅读 · 5 评论 -
python定时任务 任务调度 定时模块APScheduler
APScheduler安装pip install apschedulerapscheduler定时机制date:在魔偶个特定时间执行一次,支持UNIX系统中的Crontab时间格式interval:以固定的时间间隔执行,时间支持秒、分、时、周cron:crontab时间格式一样常用模式croncronfrom apscheduler.schedulers.blocking import BlockingSchedulerimport datetimedef show_原创 2020-10-15 07:56:24 · 218 阅读 · 1 评论 -
Redis配置密码 Ubuntu 服务器
ubuntu Redis 配置密码通过配置文件配置vim /etc/redis/redis.conf 修改配置文件 增添requirepass passwd重启服务service redis-server restart测试连接from redis import StrictRedisredis = StrictRedis(host='127.0.0.1', port=6379, db=0, password='passwd')redis.set('cookie原创 2020-09-11 17:04:20 · 1649 阅读 · 1 评论 -
Python格式化小数问题——四舍六入五成双
四舍六入五成双In [2]: '{:.2f}'.format(0.135)Out[2]: '0.14'In [3]: '{:.2f}'.format(0.145)Out[3]: '0.14'In [4]: '{:.2f}'.format(0.1351)Out[4]: '0.14'In [5]: '{:.2f}'.format(0.1352)Out[5]: '0.14'偶然遇到这...原创 2019-07-04 10:35:43 · 1757 阅读 · 2 评论 -
Python--GUI之简单记事本的构建
Python–GUI之简单记事本的构建python用于构建图形界面的模块pyqt : 通常用于大型项目中,目前属于主流wxpython : 拥有比较完善的控件,但是相对比较老的库了tkinter : 轻量级的开发框架本次案例主要应用了tkiner,代码如下: from tkinter import * from tkinter.filedialog ...原创 2019-07-03 09:29:26 · 649 阅读 · 1 评论 -
Python连接操作MongoDB
用Python去操作MongoDB大致和命令行手敲语句差不多,基本增删改查如下,NoSql数据库中数据修改操作较复杂,建议直接干掉,然后重新插入,Mongo中还自带了一些聚合函数,排序语法,where语法等。import pymongo# 连接mongodb数据库填入ip和端口号mongo_client = pymongo.MongoClient("mongodb://ip:port/")...原创 2019-07-08 09:06:49 · 272 阅读 · 1 评论