爬虫
水水水水水水水水水水
穆栩萌霖
这个作者很懒,什么都没留下…
展开
-
多线程 + 队列 + 进程锁 + 广度优先搜索 + 布隆过滤器,通过好友获取所有用户
【代码】多线程 + 队列 + 进程锁 + 广度优先搜索 + 布隆过滤器,通过好友获取所有用户。原创 2023-08-20 17:29:27 · 423 阅读 · 0 评论 -
Mac安装jadx并配置环境
Mac安装jadx原创 2023-08-01 16:52:07 · 4747 阅读 · 0 评论 -
app爬虫(2)谷歌Nexus6P Frida HOOK 实战
选择firda-server arm 64 解压导入手机端,保持手机端运行frida-server。手机访问aHR0cHM6Ly9iaXRtb3Zpbi5jb20vZGVtb3MvZHJt。手机端:frida-server==16.0.2。PC端:frida-tools==12.0.2。PC端:frida==16.0.3。二,hook得到文件。原创 2023-07-14 12:01:27 · 2599 阅读 · 0 评论 -
playwright基本使用
python启动浏览器测试工具playwright。2.示例:使用火狐浏览器无头模式启动模拟登录。原创 2023-05-14 11:54:18 · 734 阅读 · 0 评论 -
requests 解决 304代码问题
解决爬虫请求304代码原创 2023-01-14 16:19:15 · 745 阅读 · 0 评论 -
python 运行JS代码
python运行js代码原创 2023-01-14 14:11:12 · 520 阅读 · 0 评论 -
判断时间范围
【代码】判断时间范围。原创 2022-10-31 10:26:11 · 87 阅读 · 0 评论 -
队列+多线程+selenium
import timeimport reimport threadingimport queuefrom selenium import webdriverbaseurl = 'http://www....{}...html'# 递推表达式生成url列表url_list = [baseurl.format(x) for x in range(1, 13)]# 创建队列qq = queue.Queue()# 向队列添加数据for i in url_list: q.put(i)原创 2022-01-09 10:54:18 · 332 阅读 · 0 评论 -
app爬虫(1)谷歌Nexus6P获取root
一,准备材料:1.官方nexus6P刷机包https://developers.google.com/android/ota#angler2.magisk包又叫面具,root用https://magisk.download/3.platform-tools,刷机执行命令行https://developer.android.com/studio/releases/platform-tools二,刷机1.下载好刷机包,解压,里面的zip文件都解压2.手机打开调试,cmd进入platform-t原创 2021-07-03 15:48:48 · 1135 阅读 · 0 评论 -
python识别二维码
1.安装库:pip install Pillowpip install pyzbar2.完整代码:import refrom pyzbar.pyzbar import decodefrom PIL import Imageimport requests_htmlsession = requests_html.HTMLSession()url = 'https://www.xiaohongshu.com/'rous = session.get(url)css_file_url = '原创 2021-07-01 11:24:11 · 771 阅读 · 0 评论 -
爬虫文档集合
1.requests库文档2.requests_html库文档3.lxml库文档4.selenium库文档5.appium库文档原创 2021-06-27 11:32:12 · 244 阅读 · 0 评论 -
selenium 您的连接不是私密连接 解决办法
因为有证书验证,忽略即可options = webdriver.ChromeOptions()options.add_argument('ignore-certificate-errors')原创 2021-06-27 11:20:15 · 2079 阅读 · 1 评论 -
selenium基本使用
三. 如果想使用selenium启动一个和手动打开一毛一样的浏览器,需要加载上用户数据。Mac:快捷键:command+shift+G 路径:usr/local/bin。1.selenium打开浏览器获取html以及localStorage值。options添加两行代码:路径到浏览器位置下的User Data。一.搭建selenium库运行环境。2.下载对应版本webdriver。Windows:懂的都懂。二. 代码基本使用方法。原创 2021-06-25 11:24:18 · 546 阅读 · 0 评论 -
新版Fiddler,app端抓包
1.设置端口,代理,远程2.本地测试:浏览器访问本机ip:设置端口号3.手机端打开浏览器,下载并添加证书4.更改手机代理为fiddler端ip,端口为设置端口原创 2021-06-17 14:27:51 · 160 阅读 · 0 评论 -
某镜市场情报面试1题
源代码:import reimport timeimport requestsfrom lxml import etreenow_time_tamp = int(time.time() * 1000)class Mojing(object): def __init__(self): self.baseurl = 'http://wquan.moojing.com/quiz/index.html' def getItemList(self): #原创 2021-06-11 16:42:21 · 213 阅读 · 0 评论 -
天气api
天气api链接原创 2021-06-06 10:36:15 · 96 阅读 · 0 评论 -
scrapy_redis起始url需要参数时解决办法
scrapy_redis起始url访问时添加参数scrapy_redis的起始访问是默认不带参数的,但大部分情况需要携带参数,解决办法就是重写make_request_from_data方法class PinganSpider(RedisSpider): # scrapy.Spider) redis_key = '爬虫名:start_urls' # 重写make_requests # lpush pingan:start_urls '{"url": "http://api.jk原创 2021-05-24 17:58:47 · 685 阅读 · 0 评论 -
scrapy_redis实现分布式配置文件
scrapy框架只能单机爬取,不能做分布式,配合redis可实现分布式爬虫。实现分布式爬虫需要三类服务器,需要自己搭建一:redis服务器,即url调度器,所有分布式节点需要在此服务器中读取url等信息二:节点服务器,存放所有经过scrapy_redis配置过的项目文件三:目标数据库服务器,用于持久化存储爬取的数据,搭建的数据库可以是redis,mysql,mongo等配置步骤:1.需要已经开发完成的单机的基于scrapy框架的爬虫项目2.配置setting.py文件,需要配置的已在注释中写明原创 2021-05-24 17:37:37 · 170 阅读 · 2 评论 -
python 各种md5长度输出
import hashlib string = 'userId=669&apikey=098f6bcd4621d373cade4e832627b4f6×=' def md5value(key): input_name = hashlib.md5() input_name.update(key.encode("utf-8")) print("大写的32位" + (input_name.hexdigest()).upper()) print(".原创 2021-05-14 17:16:42 · 849 阅读 · 0 评论 -
网易云音乐获取音频链接(爬虫)破解params参数
网易云音乐params和encSecKey参数的生成工具:谷歌浏览器,reres浏览器插件,python3,requests_html库关键词:js逆向,js的AES加密,爬虫1.首先打开网易云音乐的歌单进入一个能听到音乐的页面搜索音乐文件,因为在线听歌要求加载文件速度快,体积小,所以候选音频文件有:mp3, m4a, acc。一番操作果然找到json格式的文件,找到音乐文件地址,接下来查看请求参数2.经过一些列的请求发现,只有两个参数是全局的关键,params和encSecKey,搜索数值未原创 2021-05-06 16:22:26 · 5466 阅读 · 0 评论 -
多线程采集网易云所有歌单里歌曲url(爬虫)
简单多线程,利用地址池创建多线程,n倍提高爬虫速度,获取m4a文件破解中import reimport timeimport jsonimport datetimeimport threadingimport requests_htmlpath = 'json.txt'session = requests_html.HTMLSession()data_urls = []get_all_song_url = []class Wangyi(object): def __in原创 2021-04-24 10:11:23 · 856 阅读 · 2 评论 -
抓取有道翻译(爬虫)
利用有道翻译输入英文返回汉译关键词:js逆向,http请求,断点调试1.找到有道翻译网站:https://fanyi.youdao.com/2.输入英文处罚网站翻译功能,浏览器自带抓包工具里搜索关键词,找到返回的json结构数据和url请求头和请求体3.用现有url,请求头,请求体requests一下,经过多次尝试和经验过滤,关键参数如下 url = 'https://fanyi.youdao.com/translate_o' head = { 'Referer': 'h原创 2021-04-11 11:53:54 · 818 阅读 · 0 评论 -
带key视频解密(爬虫)
初级会计实务视频课程(爬虫)有key值ts视频破解1.观察网站https://www.chinaacc.com/demo/h5/2/198/cware-39252/video-901.html视频大多为m3u8文件,直接搜索2.爬虫基本操作:请求获取此m3u8文件并下载ts文件3.获取后发现ts无法播放,发现有加密,加密方式AES-128,key文件也有4.再爬虫基操,获取此key二进制文件,拖入windows hex得到16进制文件5.命令行解密:out文件名字iv值发现不需要,随便一原创 2021-04-08 11:47:12 · 3738 阅读 · 0 评论 -
快递100获取快递信息(爬虫)
快递100获取快递信息(爬虫)最近搞js逆向,发现个逆向简单的网站,搞一波1.搞程序先装环境,requests_html库请求加解析于一体,居家旅行必备pip install requests2.安装完成环境,成功一半,接下来分析网站(1)打开网网址:https://www.kuaidi100.com/?from=openv(2)F12,一键超神(3)准备一个快递单号(中通除外,不知为毛查不了)(4)浏览器搜索快递信息里的某个关键字,运气好搜到了,点进去(5)请求头,请求体信息全原创 2021-03-28 10:59:17 · 3754 阅读 · 7 评论