![](https://img-blog.csdnimg.cn/c84f1756ee004c7590fcfd575e36f9bc.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫副业实战,零基础、进阶教学
文章平均质量分 94
多年爬虫经验积累,各大网站爬虫逆向经验加持,倾囊相授。从零开始,手把手教会你如何爬虫,零基础上手也能学会,做兼职,赚取外块不在话下。长期更新最新爬虫技术,实时在线答疑指导,有疑必答。
景天科技苑
中兴Python全栈技术专家,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者。Python全栈开发,tkinter,PyQt5桌面应用开发,微信小程序开发,人工智能,爬虫,云原生K8S等领域多年深耕,深谙js逆向,App逆向,网络系统安全等领域。积累了大量的前后端开发,数据库,数据分析,Django,fastapi,flask,linux,shell脚本实战等框架实操经验。与君共享,携手共进!
展开
-
【APP逆向】央视频播放量增加,逆向全过程解密
APP逆向:刷x视频的播放量原创 2024-06-11 08:54:16 · 13394 阅读 · 97 评论 -
【python】最新版小红书js逆向拿到数据,非常详细教程(附完整代码)
js逆向结合python爬虫,拿到最新的版本小红书数据,实战代码分享,拿来即用。原创 2024-05-23 11:06:18 · 18313 阅读 · 81 评论 -
【js逆向】易车网JS逆向案例实战手把手教学(附完整代码)
大家都知道,许多网站都有反爬机制,x-sign加密就是许多反爬虫机制的其中一种,本次将以易车号作为目标进行演示,快速拿到想要数据。原创 2024-05-15 08:30:28 · 10532 阅读 · 77 评论 -
【python】webpack是什么,如何逆向出webpack打包的js代码?
Webpack是一个现代的静态模块打包工具,它主要用于前端开发中的模块化打包和构建。通过Webpack,开发者可以将多个模块(包括JavaScript、CSS、图片等)进行打包,生成优化后的静态资源文件,以供在浏览器中加载和运行。webpack网站逆向案例分享。原创 2024-03-24 08:15:00 · 2886 阅读 · 41 评论 -
【python】websocket原理详细剖析,如何使用python爬取ws协议数据?
WebSocket的出现,使得浏览器具备了实时双向通信的能力。本文由浅入深,介绍了WebSocket如何建立连接、交换数据的细节,以及数据帧的格式。此外,还简要介绍了针对WebSocket的安全攻击,以及协议是如何抵御类似攻击的。源代码奉上如何建立websocket协议连接,如何通过python爬取ws协议数据。原创 2024-03-23 08:15:00 · 5739 阅读 · 44 评论 -
【python】python结合js逆向,让有道翻译成为你的翻译官,实现本地免费实时翻译
有道翻译估计大家经常用,但是每次要登录其网站也显得比较麻烦,本文就详细讲解下怎么逆向出有道翻译接口,在本地轻松使用有道翻译原创 2024-03-20 11:30:44 · 4654 阅读 · 41 评论 -
【APP逆向】酒仙网预约抢购茅台程序,包含逆向过程详解
目标:账号登录、短信登录、预约茅台(抢茅台) - 图片验证码,识别 简单的图片验证码可以通过 ddddocr这个模块识别 ocr = ddddocr.DdddOcr(show_ad=False) code = ocr.classification(img_bytes) - 这个程序有 frida监测,已运行frida。程序就会关闭 - 这个APP有壳,之前的APP拉到jadx里面,直接就可以反编译。这个APP有壳,放到jadx反编译出来,看不到的原创 2024-03-11 08:30:00 · 6914 阅读 · 31 评论 -
【python爬虫】免费爬取网易云音乐完整教程(附带源码)
网易云音乐免费下载全套教程代码分享,可以批量下载哦原创 2024-03-08 13:41:01 · 7200 阅读 · 27 评论 -
下一代自动化爬虫神器--playwright,所见即所得,不用逆向不要太香!!!
Playwright 是一个用于自动化浏览器操作的开源工具,由 Microsoft 开发和维护。它支持多种浏览器(包括 Chromium、Firefox 和 WebKit)和多种编程语言(如 Python、JavaScript 和 C#),可以用于测试、爬虫、自动化任务等场景。 Playwright 是针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,连代码都不用写,就能实现自动化功能,并同时支持以无头模式、有头模式运行。原创 2024-02-22 08:51:51 · 3702 阅读 · 11 评论 -
Python实现base64加解密,轻松爬取网页数据
Base64是一种用64个字符来表示任意二进制数据的方法。base64是一种编码方式而不是加密算法。只是看上去像是加密而已。 比如A用10编码 *用c来编码。Base64使用A--Z,a--z,0--9,+,/ 这64个字符实现对数据进行加密。 用这64个符号来描述出不同的字节。原创 2024-02-05 10:53:42 · 2423 阅读 · 0 评论 -
Python爬虫Scrapyd项目部署详细教程--最完整版本
scrapyd是一个用于部署和运行scrapy爬虫的程序,它由 scrapy 官方提供的。它允许你通过JSON API来部署爬虫项目和控制爬虫运行。所谓json api本质就是post请求的webapi。使用scrapyd部署,可以给更多的人去使用选择一台主机当做服务器,安装并启动 scrapyd 服务。再这之后,scrapyd 会以守护进程的方式存在系统中,监听爬虫地运行与请求,然后启动进程来执行爬虫程序。原创 2024-02-02 10:56:49 · 3262 阅读 · 0 评论 -
如何通过m3u8免费爬取网上电影?
现在大部分视频客户端都采用HTTP Live Streaming,而不是直接播放MP4等视频文件(HLS,Apple为了提高流播效率开发的技术)。HLS技术的特点是将流媒体切分为若干【TS片段】(比如几秒一段),然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现实时流式播放。因此,在爬取HLS的流媒体文件的思路一般是先【下载M3U8文件】并分析其中内容,然后在批量下载文件中定义的【TS片段】,最后将其【组合】成mp4文件或者直接保存TS片段。原创 2024-01-23 14:31:42 · 2460 阅读 · 2 评论 -
python实现AES,DES加解密算法
对称加密算法是应用较早的加密算法,技术成熟。在对称加密算法中,数据发信方将明文(原始数据)和加密密钥(mi yao)一起经过特殊加密算法处理后,使其变成复杂的加密密文发送出去。收信方收到密文后,若想解读原文,则需要使用加密用过的密钥及相同算法的逆算法对密文进行解密,才能使其恢复成可读明文。在对称加密算法中,使用的密钥只有一个,发收信双方都使用这个密钥对数据进行加密和解密,这就要求解密方事先必须知道加密密钥。原创 2024-01-05 16:39:08 · 2472 阅读 · 0 评论 -
python中正则表达式的使用详解(相当全面)
正则表达式是什么?它是约束字符串匹配某种形式的规则#正则表达式有什么用?1.检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法2.提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字正则只能匹配字符串格式,不能判断逻辑,判断逻辑要通过代码去实现原创 2024-01-02 15:44:10 · 4147 阅读 · 21 评论 -
Python实现MD5加密
当我们需要对数据进行加密时,一种常见的方式是使用哈希算法。其中,MD5算法是一种较为常见且流行的哈希算法,可以使用Python语言轻松实现。原创 2024-01-02 13:36:49 · 1606 阅读 · 0 评论 -
scrapy基于ImagesPipeline爬取图片和视频资源
基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别?字符串:只需要基于xpath进行解析且提交管道进行持久化存储图片:xpath解析出图片src的属性值,单独的对图片地址发起请求获取图片二进制类型的数据只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二进制类型的数据,且还会帮我们进行持久化存储。原创 2024-01-02 08:49:00 · 1772 阅读 · 2 评论 -
Crawlspider全栈爬取资源
crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的 相关的方法 和 属性 就可以实现全新高效形式的全站数据爬取。我们如果想取到所有页面,取到所有页面怎么办呢,此时我们就用到了Rule规则中的follow参数 follow=True。follow=True,,可以将链接提取器提取到的url,依次作为起始url,即可将所有页码链接取出。比如简历模板里面,我们点击工程师简历,一共41页,我们想把所有简历模板的简历名称拿到。打印得到个列表,里面的每个Link的url得到的就是链接。原创 2024-01-01 14:13:56 · 2285 阅读 · 0 评论 -
爬虫抓包工具charles的使用技巧
默认生成的证书在 中间证书颁发机构,我们找到Charles 把它拖到 受信任的根证书颁发机构 的证书中。charles激活: https://www.zzzmode.com/mytools/charles/charles官网: https://www.charlesproxy.com/download/window证书管理器: win+r: 输入certlm.msc。找到需要屏蔽的js,右键 Map Local。默认是看不到https的数据包。选择本地写的js,点击OK。先安装https证书。原创 2023-12-31 09:55:58 · 407 阅读 · 0 评论 -
js逆向之PyExecJS
逆向的概念:看着别人的加密解密逻辑,用我们的程序(python, java, c, nodejs, javascript等)把这个过程还原出来 后面就会发现有些案例单独用python根本搞不了,其他语言也可以。这种方式,当js代码中有中文,该异常出现的场景为在 Windows 电脑下使用 Python execjs 运行指定的 JS 文件,但 JS 文件中包含中文。#编译即将被执行的js代码对应的文件,返回上下文对象ctx(将js文件中的代码读取出来,被compile进行编译)原创 2023-12-30 18:29:39 · 1358 阅读 · 0 评论 -
Scrapy框架(二、持久化存储--保存数据)
如果有多个管道,根据settings配置文件中配置的管道优先级,优先级高的一定要在process_item方法中把item返回,不然下一个管道拿不到数据。#在scrapy可以返回字典,但是在官方并不推荐直接返回字典,因为在spider中写的字典的键,在管道中可能会用错。#将存储好数据的item对象提交给管道,写到循环里面 这就是我们最希望的,拿一条,返回一条 使用生成器。#在爬虫文件中引入Item类,实例化item对象,将解析到的数据存储到item对象中。原创 2023-12-29 17:57:50 · 901 阅读 · 2 评论 -
Scrapy框架(一、基本使用技巧)
Scrapy到目前为止依然是这个星球上最流行的爬虫框架. 摘一下官方给出对scrapy的介绍scrapy的特点: 速度快, 简单, 可扩展性强.Scrapy的官方文档(英文): https://docs.scrapy.org/en/latest/安装:Linux/mac系统:pip install scrapy(任意目录下)a. pip install wheel(任意目录下) 这个是安装离线安装包来安装的工具。原创 2023-12-29 17:44:49 · 805 阅读 · 0 评论 -
python爬虫之pyppeteer突破滑块验证
由于Selenium流行已久,现在稍微有点反爬的网站都会对selenium和webdriver进行识别,网站只需要在前端js添加一下判断脚本,很容易就可以判断出是真人访问还是webdriver。虽然也可以通过中间代理的方式进行js注入屏蔽webdriver检测,但是webdriver对浏览器的模拟操作(输入、点击等等)都会留下webdriver的标记,同样会被识别出来,要绕过这种检测,只有重新编译webdriver,麻烦自不必说,难度不是一般大。由于Selenium具有这些严重的缺点。原创 2023-12-29 17:13:37 · 3255 阅读 · 0 评论 -
selenium绕过检测,规避检测
现在不少大网站有对selenium采取了监测机制。比如正常情况下我们用浏览器访问淘宝等网站的 window.navigator.webdriver的值为 undefined或者为false。而使用selenium访问则该值为true。那么如何解决这个问题呢?我们正常浏览器登录查看,window.navigator.webdriver的值为false我们通过selenium打开的网页,测试,可见window.navigator.webdriver的值为true。原创 2023-12-29 16:52:04 · 2862 阅读 · 0 评论 -
Python爬虫之selenium深入解读【从入门到实战】
Selenium在爬虫中占据比较重要的地位。我们在抓取一些普通网页的时候requests基本上是可以满足的. 但是, 如果遇到一些特殊的网站. 它的数据是经过加密的.但是呢, 浏览器却能够正常显示出来. 那我们通过requests抓取到的内容可能就不是我们想要的结果了. 例如,电影票房数据. 在浏览器上看的时候是正常的. 那么按照之前的逻辑. 我们只需要看看数据是通过哪个请求拿到的就可以进行模拟请求了. 但是数据找到了.结果是经过加密算法的原创 2023-12-29 15:43:48 · 3750 阅读 · 2 评论 -
Python通过协程实现异步爬虫--asyncio技巧
很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上,很少有人能够在项目中真正的使用异步实现高性能的相关操作。接下来,咱们就一起来学习一下,爬虫中如何使用异步实现高性能的数据爬取操作。原创 2023-12-29 14:59:43 · 1583 阅读 · 0 评论 -
爬虫中如何使用代理?
在爬虫中为何需要使用代理?代理的匿名度代理的类型(重要) 代理重要性比cookie大如何获取代理?常用的收费代理如何使用代理?注册芝麻代理:获取1万个免费ip配置,其他不用动点击生成API链接点击复制链接,可以去用不用代理,我们测一下自己的ip使用这个可以没使用代理时,获取的是本地的ip#设置请求头,以字典方式存放head = {Win64;原创 2023-12-29 14:13:40 · 1724 阅读 · 0 评论 -
Python爬虫之cookie操作
session可以处理大部分反爬机制,session处理不了的,我们可以用selenium 两者结合基本是无敌的。#2.使用session发起的请求,目的是为了捕获到cookie,且将其存储到session对象中。#3.就是使用携带了cookie的session对象发起的请求(就是携带者cookie发起的请求)没有cookie的网站,我们就不要用session。滚轮下滑,会加载新的热帖,由此可见热帖是动态加载的。#查看session携带的cookie。查看session携带的cookie。原创 2023-12-29 13:21:20 · 3497 阅读 · 0 评论 -
手把手教你使用python爬虫之xpath
xpath表达式如何理解?html中的标签是遵从树状结构的。切记:xpath表达式中最好不要出现tbody标签,因为tbody标签可能是浏览器加的,可以通过查看网页源代码判断是否是真实的tbody!tbody可能是源代码自带的,也有可能是浏览器添加的可以通过右键,查看页面源代码,确定tbody是不是浏览器添加的,如果源代码中有tbody,那就时源代码中包含的如果没有那就是浏览器添加的使用方法。原创 2023-12-29 12:13:25 · 1010 阅读 · 0 评论 -
数据分析之Beautiful Soup
Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。原创 2023-12-29 11:30:32 · 870 阅读 · 0 评论 -
为什么要学习爬虫
什么是爬虫就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程模拟:浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。注意:日后只要是你的爬虫程序没有爬取到你想要的数据,只有一个原因:就是你的爬虫程序模拟的力度不够!抓取:抓取网页数据分两种情况:将一个页面所有的数据抓取到将页面中局部的数据抓取到爬虫在应用场景的分类通用爬虫:将一个页面中所有的数据获取。大部分的搜索引擎中应用比较多。聚焦爬虫。原创 2023-12-29 11:10:57 · 1856 阅读 · 0 评论