无恶不作杰尼龟-CSDN博客

原创国家税务总局全国增值税发票查验平台python实现

国家税务总局全国增值税发票查验平台python实现

2023-09-04 17:54:06 3864 3

之前发过一篇手机app抓包的文章，最近试了一下，按照之前的方法抖音直接提示无法联网了。在网上搜了一遍发现是调用了libsscronet.so这个文件里面的方法验证ssl，要用ida打开libsscronet.so找到函数的返回值然后更改保存之后覆盖原来的文件，非常之复杂。但是我发现有个简单粗暴的方法可以用：确定配好证书，然后安装好xposed+JustTrustMe。找到libsscronet.so文件并直接删除。然后你就回发现抖音可以正常抓包了但是这样是有一个缺点的，抖音在运行一会儿之后就

2022-05-13 18:02:11 3053 2

原创 Python Requests专用请求头处理

import json# 使用三引号将浏览器复制出来的requests headers参数赋值给一个变量headers = """currentPage: 2pageSize: 20key:minPrice:maxPrice:hasStock: falsesort: 3batchId:searchType: 1actId:venderId:filtTypeJson: [{"type":5,"values":[{"id":23366}]}]hasRelation: falseh

2022-03-16 14:20:50 1503

原创 Python 仅下载B站视频的音频

Python 仅下载B站视频的音频因为各音源网站都要会员而且资源都不全，但是B站上所有的歌或者郭德纲的相声是都可以分享的，所以想在B站上下载想要的歌或者其他的音频。首先打开一个连接https://www.bilibili.com/video/BV1qt411g7pN?from=search&seid=5481535319705708598打开浏览器按F12 ,切换到NetWork。会看到有资源不停的加载像图片上这样数字开头的里面带有m4s？的就是视频的真实url左键点开可以看到下图直接

2021-08-29 01:49:51 3238 4

原创 AmazonCaptcha过亚马逊验证码，准确率95%以上

最近采集了一些亚马逊的商品数据，线程比较多，每个配置账号太麻烦了，就加代理采集。开始还都很好一段时间之后就不停出现验证码，开始是用的百度ocr免费的，精确度还行，但是速度很慢，多个线程同时进入验证码还处理不了，而且有次数限制。后来在github上看到了AmazonCaptcha这个第三方库，过亚马逊验证码是真的好用，使用也非常简单。#pip 安装pip install amazoncaptcha获取到验证码图片连接可以下载本地，然后直接传入保存的路径：from amazoncaptcha i

2021-06-16 14:51:41 3898 10

转载 pyhone faker库实例

https://zhuanlan.zhihu.com/p/87203290

2021-06-16 14:13:28 119

原创手把手教你安装Xposed框架+JustTrustMe抓取手机APP数据

prthon抓取手机APP数据之前看了网上各种教程，但是手机连上Fiddler之后就是各种app连不上网，最近再B站上看到一个视频终于搞明白了。是因为SSL pinning这种防止中间人攻击的技术，什么是SSL pinning百度一搜一大堆请自行搜索，这里就不多说了。知道原因后就好办了。突破SSL pinning的方法最简单的就是使用Xposed+JustTrustMe但是这里注意给手机安装Xposed很可能便砖头，一定要用安卓模拟器我也试过好多模拟器都不怎么样，最后还是用的逍遥模拟器，安装之后默认

2020-12-12 15:41:18 21357 2

原创 python 分布式爬虫实现流程和相关设置

分布式爬虫概念：搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：大大提升爬取数据的效率如何实现分布式？安装一个scrapy-redis的组件（原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫）scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个爬虫文件修改当前的爬虫文件：- 导包：from scrapy_redis.spiders impor

2020-12-08 12:45:02 215

原创 python爬虫打击无良网站弹窗广告

今天又是在网站寻找漂亮小姐姐的一天，发现一个网站还不错，就是有广告在窗口正中间本来也没多大事，点一下就关闭了。但是在我手痒准备掏出我的F12大法的时候这个网站竟然把F12禁用了，这就勾起了我小小的战斗欲望。我先写了个简单的 requests.get()请求，发现并没有什么反爬的策略，直接就拿到页面源码页面结构也很简单一目了然，所有数据标签列表是<div class="item col-xs-6 col-sm-4 col-md-3 col-lg-3">，这个列表又在<div id=

2020-12-05 18:10:59 15324 2

原创 python scrapy结合selenium爬取JD数据

python scrapy结合selenium爬取JD数据JD的数据是js动态加载的需要selenium模拟鼠标动作向后滑动才加载完成，但是单纯的用selenium又很慢，所以用selenium和scrapy框架结合一下，会快一些。第一步：创建scrapy文件scrapy startproject JDpacd JDpascrapy genspider JD打开 JD.py分析jd页面数据这里我查找的是jd关于python爬虫的相关信息可以看到所有的信息都在ul标签下的li标签列表

2020-12-04 20:58:49 733

转载 MySQL学习笔记

MySQL学习笔记登录和退出MySQL服务器# 登录MySQL$ mysql -u root -p12345612# 退出MySQL数据库服务器exit;基本语法-- 显示所有数据库show databases;-- 创建数据库CREATE DATABASE test;-- 切换数据库use test;-- 显示数据库中的所有表show tables;-- 创建数据表CREATE TABLE pet ( name VARCHAR(20), owne

2020-12-03 16:52:39 258

原创 python爬虫下载视频网站视频

python爬虫下载视频网站视频xpath解析页面源码requests.Session() 解决 status_code 302 网页重定向selenium 获取网页遇到 iframe 标签解决办法最近发现一个比较好的视频网站，里面的资源清晰度很高，就想把自己喜欢的美剧下载到本地保存起来慢慢看。第一步：分析视频链接点击视频，进入播放页面打开谷歌浏览器f12 点击切换到Network点击视频播放按钮，会看到一直有一条条状态刷新出来这个网站比较简单，切换到media，就可

2020-12-02 19:53:13 732 2

原创 python爬虫之 scrapy框架采集2000期彩票数据

python爬虫之 scrapy框架采集2000期彩票数据最近学习一下数据分析，需要大量的数据，不知道搞啥好就用scrapy框架爬2000期的彩票双色球，看看哪个号码出现的机率大一些。第一步：在终端切换到想要新建爬虫文件的目录下利用 cd XXXX 进行切换输入scrapy startproject 文件名，并利用cd 文件名切换到新建目录!我这里新建了一个项目叫gansha 这里成功了就可以看到提示输入cd gansha 进入到项目中输入scrapy genspider

2020-12-02 02:03:00 1013 1

原创 python抓取淘宝数据

python抓取淘宝数据selenium 模拟登录输入关键字并搜索xpath解析这个是属于比较简单的直接上代码完整代码如下from selenium import webdriverfrom selenium.webdriver import ChromeOptionsimport timefrom lxml import etree#实例化浏览器对象option = ChromeOptions()option.add_experimental_option('exclu

2020-12-01 21:32:40 569

原创 python爬虫之 asyncio异步协程学习

python爬虫之 asyncio异步协程学习导包import asyncioimport aiohttp第一步：创建一个特殊的函数async def get_request(url):被 async 修饰的函数就是一个特殊函数，有一下特性：该函数被调用，不会立即执行函数被调用后返回一个协程对象第二步：协程对象调用特殊函数就会返回一个协程对象c = get_request(url) # 这里变量c 就是一个协程对象第三步：任务对象（高级的协程对象）利用协程对象( c )

2020-12-01 20:33:13 326

原创 python selenium学习之新浪微博

python selenium学习之新浪微博运用知识点：模拟登录模拟鼠标事件获取页面节点，解析开始模拟登录：第一步：实例化selenium对象from selenium import webdriverfrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation']) #

2020-12-01 17:03:18 295

国家税务总局全国增值税发票查验平台python实现

python利用execjs运行js来还原平台加密的过程。文件介绍： gc.py #主程序 fqlx.js #fqlx的加密 key9.js # key9的加密 quan.js #flwq39的加密主要是破解js加密的部分，所以验证码这边就没有特殊处理，只是显示出来，要自己手动输入。想要全自动的话可以接打码平台或者使用已经训练好的图像识别模型。

2023-09-04

python实现1688图搜 2022年最新版 2022-3-15 亲测

python实现1688图搜 2022年最新版 2022-3-15 亲测调用 # pip install requests # ImgSearch 是具体实现 from search.search import ImgSearch # img 可以是图片路径或者网络url # kuangjing 是否启用跨境搜索 # max_page 搜索最大页数 # search_gen是generator img_search = ImgSearch() for product in img_search.search_gen(img, kuajing=False, max_page=1): print(product)

2022-03-16

微信缓存dat文件转成图片jpg文件.exe

微信缓存dat文件转成图片jpg文件

2021-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

TTXSDEKK的博客

原创国家税务总局全国增值税发票查验平台python实现

原创手机app抓包

原创 Python Requests专用请求头处理

原创 Python 仅下载B站视频的音频

原创 AmazonCaptcha过亚马逊验证码，准确率95%以上

转载 pyhone faker库实例

原创手把手教你安装Xposed框架+JustTrustMe抓取手机APP数据

原创 python 分布式爬虫实现流程和相关设置

原创 python爬虫打击无良网站弹窗广告

原创 python scrapy结合selenium爬取JD数据

转载 MySQL学习笔记

原创 python爬虫下载视频网站视频

原创 python爬虫之 scrapy框架采集2000期彩票数据

原创 python抓取淘宝数据

原创 python爬虫之 asyncio异步协程学习

原创 python selenium学习之新浪微博

国家税务总局全国增值税发票查验平台python实现

python实现1688图搜 2022年最新版 2022-3-15 亲测

微信缓存dat文件转成图片jpg文件.exe

空空如也