爬虫知识
文章平均质量分 91
分享爬虫相关实用技巧。
K哥爬虫
分享有深度、有细节的爬虫技术~
展开
-
通杀无限 debugger,目前只有 1% 的人知道!
相信很多小伙伴在进行 web 逆向的时候,都遇到过无限 debugger。最简单的方法,在 debugger 位置,点击行号,右键 Never pause here,永远不在此处断下即可。但是这种方法就妄想通杀,显然是不大可能的,不然这种防护岂不是弄出来骗自己的。现在很多网站,这样处理是无法绕过的。例如常规的,可能存在格式化检测,内存爆破,禁用右键,要么就会接着进入到下一个 debugger 中,甚至出现网页卡死的情况等等。这些可能就会挡住一部分爬虫 er。原创 2023-12-21 18:20:46 · 1701 阅读 · 0 评论 -
_0x4c9738 怎么还原?嘿,还真可以还原!
代码混淆(obfuscation)和代码反混淆(deobfuscation)在爬虫、逆向当中可以说是非常常见的情况了,初学者经常问一个问题,类似 的变量名怎么还原?从正常角度来说,这个东西没办法还原,就好比一个人以前的名字叫张三,后来改名叫张四了,除了张四本人和他爸妈,别人根本不知道他以前叫啥,类似 的变量名也一样,除了编写原始代码的人知道它原来的名称是啥以外,其他人是没办法知道的。然而, 就真的没办法还原吗?时代在进步,这几年人工智能蓬勃发展,在机器学习的加持下,让变量名的还原也成为了一种可能。本文将原创 2023-08-23 14:03:27 · 1872 阅读 · 0 评论 -
【0基础学爬虫】爬虫基础之爬虫的基本介绍
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为爬虫的基本介绍。一、爬虫概述爬虫又称网络蜘蛛、网络机器人,网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(Scalable Web Crawler):抓取互联网上所有数据,爬取对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜原创 2023-02-10 16:31:08 · 1328 阅读 · 0 评论 -
【K哥爬虫普法】蓄意突破反爬虫技术,爬取牌照信息
蓄意突破反爬虫技术,爬取牌照信息原创 2022-12-20 15:35:56 · 975 阅读 · 0 评论 -
【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!
警钟长鸣原创 2022-10-26 14:33:56 · 1541 阅读 · 0 评论 -
爬虫逆向进阶,利用 AST 技术还原 JavaScript 混淆代码
AST Babel 入门手册,手把手带你还原 JS 混淆代码,让你逆向如虎添翼!原创 2022-04-27 10:14:29 · 4757 阅读 · 0 评论 -
RPC 技术及其框架 Sekiro 在爬虫逆向中的应用,加密数据一把梭
爬虫界神器,RPC 技术及其框架 Sekiro 的应用实战。原创 2022-02-22 18:43:04 · 5521 阅读 · 0 评论 -
CTF&爬虫:掌握这些特征,一秒识别密文加密方式
如何快速识别密文使用了哪种编码、加密算法、混淆方式?原创 2022-01-14 16:39:06 · 25864 阅读 · 2 评论 -
【JS 逆向百例】反混淆入门,某鹏教育 JS 混淆还原
关注微信公众号:K哥爬虫,持续分享爬虫进阶、JS/安卓逆向等技术干货!声明本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!逆向目标目标:某鹏教育登录接口加密,含有简单的 JS 混淆主页:aHR0cHM6Ly9sZWFybi5vcGVuLmNvbS5jbi8=接口:aHR0cHM6Ly9sZWFybi5vcGVuLmNvbS5jbi9BY2NvdW50L1VuaXRMb2d..原创 2021-11-30 15:07:15 · 1335 阅读 · 1 评论 -
【JS 逆向百例】某易支付密码 MD5+AES 加密分析
关注微信公众号:K哥爬虫,持续分享爬虫进阶、JS/安卓逆向等技术干货!声明本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!逆向目标目标:某易支付密码加密主页:aHR0cHM6Ly9lcGF5LjE2My5jb20vaDVDYXNoaWVyL2JlZm9yZS12YWxpZGF0aW9u接口:aHR0cHM6Ly9lcGF5LjE2My5jb20vY2FzaGllci9tL..原创 2021-11-16 16:33:03 · 1412 阅读 · 0 评论 -
爬虫逆向基础,认识 SM1-SM9、ZUC 国密算法
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!【01x00】 简介国密即国家密码局认定的国产加密算法,爬虫工程师在做 JS 逆向的时候,会遇到各种各样的加密算法,其中 RSA、AES、SHA 等算法是最常见的,这些算法都是国外的,在 K 哥以前的文章里也有介绍:《【爬虫知识】爬虫常见加密解密算法》事实上从 2010 年开始,我国国家密码管理局就已经开始陆续发布了一系列国产加密算法,这其中就包括 SM1、SM2、SM3 、SM4、SM7、SM..原创 2021-11-09 16:08:30 · 1387 阅读 · 0 评论 -
Loguru:Python 日志终极解决方案
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!日志的重要性日志的作用非常重要,日志可以记录用户的操作、程序的异常,还可以为数据分析提供依据,日志的存在意义就是为了能够在程序在运行过程中记录错误,方便维护和调试,能够快速定位出错的地方,减少维护成本。每个程序员都应该知道,不是为了记录日志而记录日志,日志也不是随意记的。要实现能够只通过日志文件还原整个程序执行的过程,达到能透明地看到程序里执行情况,每个线程、每个过程到底执行到哪的目的。日志就像飞..原创 2021-11-04 16:56:11 · 1092 阅读 · 1 评论 -
【JS 逆向百例】webpack 改写实战,G 某游戏 RSA 加密
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!声明本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!逆向目标目标:G某游戏登录主页:aHR0cHM6Ly93d3cuZ205OS5jb20v接口:aHR0cHM6Ly9wYXNzcG9ydC5nbTk5LmNvbS9sb2dpbi9sb2dpbjM=逆向参数: Qu..原创 2021-10-28 09:19:57 · 1023 阅读 · 0 评论 -
爬虫逆向基础,理解 JavaScript 模块化编程 webpack
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!简介在分析一些站点的 JavaScript 代码时,比较简单的代码,函数通常都是一个一个的,例如:function a() {console.log("a")}function b() {console.log("a")}function c() {console.log("a")}但是稍微复杂一点的站点,通常会遇到类似如下的代码结构:!function(i) { funct..原创 2021-10-24 13:00:00 · 995 阅读 · 1 评论 -
Python 3.10 正式发布,新增模式匹配,同事用了直呼真香!
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!前几天,也就是 10 月 4 日,Python 发布了 3.10.0 版本,什么?3.9 之后居然不是 4.0?(手动狗头)其实龟叔(Guido van Rossum,吉多·范罗苏姆,Python 之父)早在去年 9 月就说了:3.9 之后的版本为 3.10;事实上,它已经存在(在 Github Master 主分支中)。如果有版本 4,从 3 到 4 的过渡更像从 1 到 2,而不是从 2 ..原创 2021-10-18 16:09:10 · 21133 阅读 · 3 评论 -
JS 逆向之 Hook,吃着火锅唱着歌,突然就被麻匪劫了!
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶、JS/安卓逆向等技术干货!什么是 Hook?Hook 中文译为钩子,Hook 实际上是 Windows 中提供的一种用以替换 DOS 下“中断”的系统机制,Hook 的概念在 Windows 桌面软件开发很常见,特别是各种事件触发的机制,在对特定的系统事件进行 Hook 后,一旦发生已 Hook 事件,对该事件进行 Hook 的程序就会收到系统的通知,这时程序就能在第一时间对该事件做出响应。在程序中将其理解为“劫持”可能会更.原创 2021-09-29 14:35:45 · 26195 阅读 · 2 评论 -
【爬虫知识】爬虫常见加密解密算法
简介本文总结了在爬虫中常见的各种加密算法、编码算法的原理、在 JavaScript 中和 Python 中的基本实现方法,遇到 JS 加密的时候可以快速还原加密过程,有的网站在加密的过程中可能还经过了其他处理,但是大致的方法是一样的。常见加密算法:对称加密(加密解密密钥相同):DES、3DES、AES、RC4、Rabbit非对称加密(区分公钥和私钥):RSA、DSA、ECC消息摘要算法/签名算法:MD5、SHA、HMAC、PBKDF2常见编码算法:Base64JavaScript 加密解密原创 2021-07-30 15:52:09 · 5035 阅读 · 1 评论 -
【爬虫知识】浏览器开发者工具使用技巧总结
总览浏览器开发者工具在爬虫中常用来进行简单的抓包分析、JS逆向调试,打开方式:F12;快捷键 Ctrl+Shift+I;鼠标右键检查或者审查元素;浏览器右上角 —> 更多工具 —> 开发者工具常见禁用开发者工具手段:https://blog.csdn.net/cplvfx/article/details/108518077官方文档:https://developer.chrome.com/docs/devtools/Elements(元素面板):使用“元素”面板可以通过自原创 2021-07-23 14:57:39 · 1604 阅读 · 0 评论 -
【爬虫知识】你真的完全了解了 post 和 get 的区别和联系吗?
一、联系get和post是HTTP协议中的两种发送请求的方法,底层都是用TCP/IP协议进行通信的。客户端ip发出请求,发出的请求数据包会通过tcp协议,经网络传输给远程服务端ip,服务端ip收到请求包之后,解析并处理请求包最后服务端会通过tcp协议将处理结果返回给客户端ip,用户便可以查看到想要的响应数据。get和post本质上都是TCP链接, 之所以有get和post区分,是因为他们底层数据的传输都是基于tcp协议,需要通过HTTP的规则和浏览器/服务器的限制进行区分,使他们在应用过程中体现出不同原创 2021-03-10 09:36:45 · 10967 阅读 · 4 评论