
爬虫和逆向教程

文章平均质量分 95
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到案例实战,逐步成为爬虫领域的佼佼者。
订阅后可以联系博主加微信群,有任何问题都可以群里沟通~
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
数据知道
IT技术博主,博主会持续更新专栏文章,欢迎关注和订阅文章博客,欢迎私信和博主交流技术,欢迎关注公众号:数据知道的成长之路。如有需要请站内私信或者联系VX名片(ID:data_know)
展开
-
爬虫和逆向教程-专栏介绍和目录
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到高级实战,助你在数据的海洋中畅游,挖掘出有价值的信息。通过本专栏的学习,你将具备独立开发和优化爬虫程序的能力,及逆向分析能力和项目开发能力,成为爬虫领域的佼佼者。原创 2025-02-28 20:26:59 · 6663 阅读 · 0 评论 -
python爬虫和逆向:百度翻译数据采集的几种方式
本文介绍了两种获取百度翻译数据的技术实现方式,并提供了相应的Python代码示例。第一种是通过百度翻译开放平台的官方API,步骤包括注册开发者账号、获取APP ID和密钥,并调用API接口。该方式完全合规,稳定可靠,但免费版有调用次数限制。第二种是通过逆向分析网页版百度翻译的网络请求,模拟其签名算法和参数构造,实现数据采集。该方式无需注册开发者账号,但可能涉及合规性问题。两种方式各有优缺点,开发者可根据需求选择合适的方法。原创 2025-05-21 20:07:16 · 247 阅读 · 0 评论 -
开源免费抓包工具:ProxyPin 的详细使用
ProxyPin 是一款开源的 HTTP/HTTPS 抓包工具,支持 Windows、macOS 和 Linux、 Android、IOS平台,主要用于移动端和桌面端的网络请求调试。以下是详细使用:原创 2025-05-21 19:42:51 · 169 阅读 · 0 评论 -
安卓应用层抓包通杀脚本 r0capture 详解
r0capture是一款基于Frida框架开发的安卓应用层抓包工具,能够绕过SSL Pinning等反抓包机制,支持HTTP/HTTPS等多种协议的流量捕获。其核心特性包括自动绕过证书固定、支持双模式注入、无root要求以及数据可视化。r0capture通过Java层和Native层的Hook技术,拦截并解密流量,适用于多种应用层框架和加固应用。工具的使用需要安装Python依赖和Frida环境,并配置设备端的frida-server。r0capture支持Spawn和Attach两种模式,能够实时监控流量原创 2025-05-18 12:18:41 · 267 阅读 · 0 评论 -
爬虫逆向:一文掌握GDB工具的各种使用(爬虫开发中的调试利器)
GDB 是 GNU 项目中的开源调试工具,主要用于 C/C++ 程序的调试,但也支持其他多种编程语言。它是 Linux/Unix 系统下最常用的调试器,具有强大的功能和灵活性。在爬虫开发中,GDB也是一个强大的调试工具。# 创建pretty printerpythonend。原创 2025-05-01 09:38:45 · 2123 阅读 · 0 评论 -
【GDB】一文掌握 GDB 详细用法(GDB 命令速查)
GDB(GNU Debugger)是Linux/Unix系统下强大的命令行调试工具,用于分析程序运行时的内存状态、执行流程和故障定位。就会被压入栈中,栈帧包含了该函数的局部变量、参数、返回地址和其他信息,当函数执行完毕后,这个栈帧会被弹出栈并销毁。调用的函数如果存在全局变量、静态变量的修改,在函数返回后会恢复到调用之前的值,这两个调用不会影响程序的状态。显示运行时将要或已经传递给程序的参数。每当一个函数被调用时,一个新的栈帧。在启动进程前,添加环境变量。在启动进程前,清除环境变量。连接到正在运行的进程。原创 2025-03-28 13:57:05 · 3085 阅读 · 0 评论 -
高效爬虫:一文掌握 FunBoost 的各种使用(万能分布式函数调度框架)
FunBoost是分布式函数调度框架,支持5种并发模式,20+种消息中间件,30种任务控制功能。用途概念就是常规经典的 生产者 + 消息队列中间件 + 消费者 编程思想。有了这个框架,用户再也无需亲自手写操作进程、线程、协程的并发的代码了。有了这个框架,用户再也无需亲自手写操作redis rabbitmq socket kafka celery nameko了。funboost的功能是全面性重量级,用户能想得到的功能99%全都有;原创 2025-04-28 19:59:46 · 1371 阅读 · 2 评论 -
【爬虫】一文掌握 adb 的各种指令(adb备忘清单)
既 Android Debug Bridge,是 Google 的 Android SDK 中的一个命令行工具,可让您的计算机控制 Android 设备执行各种设备操作。您现在可以断开 USB 线缆使用。现在在某个端口重新启动。一起使用的一些最常见的命令及其用法。替换为您自己的应用程序包名称。例如,要显示优先级不低于。原创 2025-04-28 10:43:07 · 1300 阅读 · 0 评论 -
爬虫:一文掌握 crawlergo 的详细使用(用于网络漏洞扫描程序的强大浏览器爬虫)
crawlergo是一个使用模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。原创 2025-04-23 17:48:08 · 1798 阅读 · 0 评论 -
爬虫反爬:一文掌握 BotBrowser 的原理和使用(能绕过很多验证码的指纹浏览器)
BotBrowser是使用经过修改的Chromium内核(修改Chromium的C++源代码)的隐形浏览器,可靠地绕过Cloudflare、Shape、PerimeterX、Datadome、Akamai、Kasada、hCaptcha和reCAPTCHA。BotBrowser是一个跨平台的自动化工具,它重新定义了web自动化。专为爬虫、RPA(机器人流程自动化)和 Web 测试设计。与 Puppeteer/Selenium 不同,它通过无头模式(Headless)和API 级控制。原创 2025-04-17 10:13:54 · 3205 阅读 · 0 评论 -
爬虫: 一文掌握 pycurl 的详细使用(更接近底层,性能更高)
PycURL 是 libcurl 的 Python 接口,是一个功能强大且高效的网络请求库,特别适合需要高性能 HTTP 客户端或需要访问 libcurl 高级功能的场景。libcurl支持HTTP、HTTPS、FTP、GOPHER、DICT、TFTP、TELNET和FILE等许多协议。pycurl是将libcurl封装成Python模块的结果,因此,它既可以在Python脚本中直接使用,也可以在动态状态下使用。安装 PycURL。原创 2025-04-14 19:10:58 · 1571 阅读 · 0 评论 -
爬虫:一文掌握 curl-cffi 的详细使用(支持 TLS/JA3 指纹仿真的 cURL 库)
curl_cffi是一个 Python 库,它通过 CFFI(C Foreign Function Interface)绑定提供了 libcurl 的功能,并增加了对抗 TLS 指纹检测的能力(如 JA3 指纹)。它提供了比标准pycurl更简单、更 Pythonic 的 API,同时保持了 libcurl 的强大功能。原创 2025-04-14 19:08:19 · 3450 阅读 · 0 评论 -
高效爬虫:一文掌握 Crawlee 的详细使用(web高效抓取和浏览器自动化库)
Crawlee:一个用于Python构建可靠爬虫的网络抓取和浏览器自动化库。提取AI、LLM、RAG或GPT的数据。从网站下载HTML、PDF、JPG、PNG和其他文件。适用于BeautifulSoup、Playwright和原始HTTP。头模式和无头模式。提供端到端的爬取和抓取服务,可以快速构建可靠的抓取工具。即使使用默认配置,您的爬虫程序也能像人类一样运行,并躲过现代机器人防护措施的雷达扫描。Crawlee 为您提供各种工具,帮助您抓取网页链接、数据并以机器可读的格式持久存储数据,而无需担心技术细节。原创 2025-04-14 13:09:17 · 2703 阅读 · 0 评论 -
Android模拟采集:一文掌握 uiautomator2 的详细使用
是一个基于 Python 的 Android UI 自动化测试工具,它封装了 Google 的框架,提供了更简单易用的 API,适用于自动化测试、爬虫、批量操作等场景。GitHub文档。原创 2025-04-09 20:10:57 · 1999 阅读 · 0 评论 -
下一代智能爬虫框架:ScrapeGraphAI 详解
ScrapeGraphAI 是一个基于图计算(Graph Computing)和大语言模型(LLM) 的智能爬虫框架,通过将网页解析任务建模为 有向图(Directed Graph),实现自动化、可解释的网页数据采集。图节点:代表网页元素(如按钮、表格、文本块)图边:定义操作流程(如点击→等待→提取)LLM 辅助:自动生成 XPath/CSS 选择器,处理动态结构instruction="提取所有<h2>标签文本",原创 2025-04-08 19:37:20 · 3375 阅读 · 0 评论 -
一文掌握 google浏览器插件爬虫 的制作
通过以上步骤,你可以构建一个功能完整的 Chrome 插件爬虫。如果需要复杂功能(如自动翻页、验证码破解),可结合后端服务(如 Puppeteer 或 Scrapy)。通过以上技术栈和实现方案,您可以构建从简单到企业级的浏览器插件爬虫。建议从基础内容脚本开始,逐步添加代理、存储等高级功能。制作 Google Chrome 浏览器插件(Extension)爬虫,需要结合。:在Chrome开发者工具中选择对应iframe上下文。(含代理/IP轮换)原创 2025-04-08 19:07:40 · 3193 阅读 · 0 评论 -
前言:为什么要学习爬虫和逆向,该如何学习?
学习爬虫和逆向技术是当今数字化时代的重要技能,尤其在数据分析、安全研究、自动化工具开发等领域有广泛应用。以下是详细的学习理由、路径和方法:原创 2025-04-08 12:00:33 · 4306 阅读 · 0 评论 -
爬虫:一文掌握 Pydoll 的详细使用(彻底改变浏览器自动化,且能绕过绕过验证码!)
Pydoll正在彻底改变浏览器自动化!与其他解决方案不同,它消除了对Web驱动程序的需求,提供了流畅可靠的自动化体验和本机异步性能。原创 2025-04-07 11:00:41 · 2912 阅读 · 0 评论 -
【爬虫案例】采集 Instagram 平台数据几种方式(python脚本可直接运行)
成立时间:2010年10月(2012年被Facebook以10亿美元收购,现属Meta旗下)全球月活用户:约 20亿(2023年数据,仅次于Facebook和WhatsApp)定位:以视觉内容为核心的社交平台,支持图片、短视频(Reels)、直播、Stories(24小时限时动态)原创 2025-04-05 18:46:56 · 3809 阅读 · 1 评论 -
如何下载主流网站的视频和音频?(支持100+网站视频下载)
you-get 库的完整使用大全,涵盖安装、命令行操作、Python API、高级技巧及常见问题解决方案,适用于主流视频/音频/图片下载场景。原创 2025-03-29 18:21:07 · 2731 阅读 · 0 评论 -
逆向中如何判断JSVMP,及如何解决?(包括实战案例)
是一种高级的 JavaScript 代码保护技术,通过将原始代码转换为自定义字节码并在虚拟环境中执行来实现混淆。在逆向工程中,判断目标代码是否采用JSVMP并找到解决方案,需要系统化的分析思路和技术手段。原创 2025-03-29 11:24:03 · 3084 阅读 · 0 评论 -
Python爬虫:Feapder 的详细使用和案例
Feapder 是一个功能强大的 Python 爬虫框架,支持分布式、批次采集、断点续爬等功能。下面将详细介绍 Feapder 的使用方法,并提供多个实用案例。原创 2025-03-26 13:51:49 · 2875 阅读 · 0 评论 -
Python爬虫:Asyncpy 的详细使用和案例(高性能异步爬虫框架)
Asyncpy 是一个基于 Python 异步编程的爬虫框架,它利用 asyncio 和 aiohttp 等库来实现高性能的网络爬取。下面将详细介绍如何使用 Asyncpy 来构建高效的爬虫。原创 2025-03-26 09:48:30 · 2892 阅读 · 0 评论 -
爬虫:Requests-HTML的详细使用
requests-html 是一个基于 requests 和 pyquery 的 Python 库,用于抓取和解析 HTML 内容。它结合了 requests 的简单易用性和 pyquery 的强大 HTML 解析能力,同时支持 JavaScript 渲染、CSS 选择器和 XPath 查询等功能。以下是 requests-html 的详细使用。原创 2025-03-25 10:13:57 · 2577 阅读 · 1 评论 -
爬虫:scrapy面试题大全(60个scrapy经典面试题和详解)
Scrapy是一个用于Python的开源网络爬虫框架,用于快速、高效地抓取网站数据并提取结构化信息。它提供了强大的工具和组件,如请求调度、数据管道、中间件等,可以让开发者专注于数据提取和处理的逻辑。原创 2025-03-23 13:18:33 · 2819 阅读 · 0 评论 -
AI爬虫 :Firecrawl的安装和详细使用案例(将整个网站转化为LLM适用的markdown或结构化数据)
Firecrawl 是一个轻量级、高效的网页抓取工具,专注于从网页中提取结构化数据。它支持静态网页和动态内容(如 JavaScript 渲染的页面),并提供简单易用的 API 或命令行工具。原创 2025-03-18 19:44:51 · 3777 阅读 · 0 评论 -
AI爬虫:一文讲通AI爬虫技术和原理,及34个AI爬虫工具推荐
AI 爬虫 是一种结合了传统网络爬虫技术和人工智能(AI)技术的工具,能够更智能、高效地从网页中提取和处理数据。与传统爬虫相比,AI 爬虫能够更好地处理动态内容、复杂网页结构以及非结构化数据,同时具备数据清洗、分类、情感分析等高级功能。原创 2025-03-18 19:34:37 · 3559 阅读 · 0 评论 -
AI爬虫 :Crawl4AI的安装和详细使用案例(开源 LLM 友好型网络爬虫)
Crawl4AI是排名第一的热门 GitHub 存储库,由活跃的社区积极维护。它提供速度极快、适用于 AI 的网络爬虫,专为大型语言模型、AI 代理和数据管道量身定制。Crawl4AI 完全开源、灵活且专为实时性能而构建,可为开发人员提供无与伦比的速度、精度和部署便利性。恭喜!执行了基本抓取并打印了 Markdown。使用带有 markdown 生成器的 内容过滤器。通过CSS或LLM策略提取 JSON。使用 JavaScript 触发器处理动态页面。安装。原创 2025-03-18 13:37:56 · 5033 阅读 · 0 评论 -
爬虫逆向:详细讲述iOS底层原理及机制
iOS 的底层原理和机制涉及多个层次和组件,从 Darwin 内核到 Cocoa Touch 层,每个部分都发挥着重要作用。通过理解这些原理,开发者可以更好地优化应用性能、解决复杂问题,并深入掌握 iOS 系统的运行机制。原创 2025-03-18 07:48:56 · 3075 阅读 · 0 评论 -
爬虫逆向:详细讲述Android底层原理及机制
Android底层原理及机制涵盖了从Linux内核到应用框架的多个层次,每个层次都承担着特定的职责和功能。通过理解这些底层机制,开发者可以更好地优化应用性能、提升用户体验,并确保应用的安全性。此外,深入掌握Android的底层原理也为系统定制、性能调优和故障排查提供了坚实的基础。原创 2025-03-17 20:09:34 · 3029 阅读 · 0 评论 -
爬虫逆向:逆向中用到汇编语言详细总结
在爬虫逆向工程中,理解和掌握汇编语言是至关重要的。逆向工程通常涉及对目标程序的二进制代码进行分析和理解,以揭示其内部工作原理、数据结构和算法。汇编语言作为低级编程语言,直接对应于机器指令,能够帮助逆向工程师深入理解程序的执行流程和逻辑。本文将详细总结在爬虫逆向过程中常用的汇编语言知识,包括基本概念、常用指令、寄存器、调用约定以及分析工具等。原创 2025-03-17 19:12:56 · 3568 阅读 · 0 评论 -
iOS移动端安全相关知识汇总
iOS 设备的安全性得益于 Apple 的严格控制和封闭生态系统,但用户仍需保持警惕,采取有效的防护措施。通过了解常见的安全威胁、遵循最佳实践以及使用安全工具,可以显著提高 iOS 设备的安全性。原创 2025-03-17 08:17:24 · 2281 阅读 · 0 评论 -
Android手机中各类安全相关知识总结
Android 设备的安全性需要用户、开发者和厂商共同努力。通过了解常见的安全威胁、采取有效的防护措施以及遵循最佳实践,可以显著提高 Android 设备的安全性。Android移动端的安全涉及系统架构、权限管理、数据加密、网络安全、应用开发、常见威胁防护及设备设置等多个方面。通过了解并应用上述安全知识,用户和开发者可以有效提升Android设备的安全性,保护个人隐私和数据安全。随着技术的不断发展,安全威胁也在不断演变,保持对最新安全动态的关注和持续的安全防护措施是确保Android设备安全的关键。原创 2025-03-16 10:31:51 · 2572 阅读 · 1 评论 -
Python 爬虫:一文掌握 SVG 映射反爬虫
SVG用于在网页上显示二维图形。与传统的位图图像(如JPEG、PNG)不同,SVG图像可以在不失真的情况下缩放,并且支持丰富的交互性和动画效果。提取字体文件:从网页中下载字体文件(通常是 WOFF 或 TTF 格式)。解析字体映射:使用工具(如 fontTools)解析字体文件,获取字符映射关系。还原原始数据:根据映射关系还原 SVG 中的文本。# 加载字体文件# 获取字符映射关系# 示例:根据映射关系还原字符svg_text = "" # SVG 中的字符。原创 2025-03-15 18:24:00 · 2953 阅读 · 2 评论 -
爬虫:一文掌握 js2py 的详细使用(Python 环境中执行 JavaScript 代码)
js2py 是一个用于在 Python 环境中执行 JavaScript 代码的库。它允许你在不依赖浏览器的情况下,直接在 Python 中运行 JavaScript 脚本。这在处理需要执行 JavaScript 的网页爬虫时特别有用,尤其是当目标网站使用了大量的客户端 JavaScript 来动态加载内容时。js2py 是一个强大的工具,可以在 Python 环境中执行 JavaScript 代码,方便进行网页爬虫、自动化测试等任务。原创 2025-03-15 17:46:27 · 2516 阅读 · 1 评论 -
爬虫逆向:一文掌握逆向中的加密与解密(代码可直接拿来用)
在现代网络爬虫开发中,目标网站为了防止数据被轻易抓取,通常会对传输的数据进行加密处理。这些加密手段包括但不限于 Base64 编码、对称加密(如 AES)、非对称加密(如 RSA)、自定义混淆算法等。理解和破解这些加密解密算法是爬虫逆向工程中的重要环节。有些网站使用自定义的加密算法,需要通过逆向分析找到加密逻辑。案例:逆向自定义加密使用浏览器开发者工具(F12)调试 JavaScript 代码。找到加密函数,分析其逻辑。使用 Python 实现相同的逻辑。# 示例:自定义 XOR 加密。原创 2025-03-14 12:27:36 · 7577 阅读 · 0 评论 -
爬虫逆向:Hook 技术原理与实战
Hook 技术(钩子技术)是一种通过拦截和修改程序执行流程的技术手段。它允许开发者在目标程序的特定位置插入自定义代码,以改变程序的默认行为或获取运行时信息。Hook 技术广泛应用于调试、逆向工程、性能分析、安全防护等领域。Hook 技术在爬虫逆向中非常有用,能够有效获取和修改目标程序的数据。通过合理使用 Hook 工具和技术,可以显著提升爬虫的效率和成功率。但使用时需注意法律和道德问题,确保行为合规。原创 2025-03-14 09:26:36 · 4792 阅读 · 0 评论 -
Hook 用法详解(备忘清单)
hook用法备忘原创 2025-03-14 09:12:29 · 2359 阅读 · 0 评论 -
爬虫逆向:Unicorn 详细使用指南
Unicorn 是一个轻量级的 CPU 模拟器框架,支持多种架构(如 ARM、x86、MIPS 等)。它常用于逆向工程、漏洞分析和恶意软件分析。以下是 Unicorn 的详细使用指南。Unicorn 是一个强大的 CPU 模拟器框架,适合用于逆向工程和漏洞分析。通过掌握其基本和高级功能,可以高效地模拟和分析二进制代码。原创 2025-03-13 20:13:17 · 4324 阅读 · 0 评论 -
【爬虫逆向】一文掌握混淆工具Ollvm(超级详细!)
Ollvm 是一个强大的代码混淆工具,通过多种混淆技术增加逆向工程的难度。多种混淆技术:控制流扁平化、指令替换、虚假控制流、字符串加密。灵活配置:支持调整混淆强度。跨平台支持:适用于 Windows、Linux 和 macOS。在逆向分析中,Ollvm 的混淆技术会显著增加分析难度,但通过结合静态和动态分析工具,仍然可以逐步还原代码逻辑。原创 2025-03-13 08:59:40 · 3308 阅读 · 0 评论