爬虫
文章平均质量分 59
全经过实践的东西,不说虚的
坦桑尼亚奥杜威峡谷能人
测试开发领域,主python,c进行中,后端、前端、爬虫都能搞搞。
社区:https://bbs.csdn.net/forums/sydjcwx
I、M 相信:努力创造美好生活
展开
-
pyppeteer爬虫例子
转载:https://www.cnblogs.com/c-x-a/p/10001353.html# coding=utf-8import asyncioimport pyppeteerfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers histo...转载 2019-01-17 17:52:40 · 2404 阅读 · 1 评论 -
python爬虫psot请求所提交的数据类型
1. 普通字典格式2.需转成json格式:json.dump(dict)3.'Content-Type': 'multipart/form-data; boundary=AXkzXNkTirE6nx7cLrcNh37nmvvXOD' 类型from requests_toolbelt import MultipartEncoderdata = {'mobile': '132...原创 2018-11-08 11:59:14 · 263 阅读 · 0 评论 -
win10下 Genymotion + Xposed + Inspeckage 安装调试安卓app
1. Genymotion下载地址:https://pan.baidu.com/s/1brjhNUiVSQwGvvrpN9HU1w提取码:84tr安装:1.执⾏genymotion-2.11.0-vbox.exe(是⼀个集合程序,包含genymotion和 virtualbox) -> 不需要 更改配置,直接下⼀步默认安装2.安装完genymotion继续等待,会提示安装v...原创 2019-11-29 15:20:24 · 2012 阅读 · 0 评论 -
win10家庭版安装docker和splash
docker安装docker下载地址:阿里云镜像 http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/选择:Docker 分为 CE 和 EE 两大版本。CE 即社区版,EE 即企业版,强调安全,付费使用。下载完成后直接点击安装,每步都选择默认安装就行,安装完成后会出现双击Docker Quickstart ...原创 2019-11-11 14:00:56 · 481 阅读 · 0 评论 -
frida 推荐教程
https://blog.csdn.net/cpongo1/article/details/102580556https://www.freebuf.com/articles/system/190565.htmlhttps://blog.csdn.net/zhy025907/article/details/89512096原创 2020-06-12 17:26:39 · 218 阅读 · 0 评论 -
doyin frida hook 记录
环境:win10 + python 3.6.5 + 小米手机抖音app 使用 frida hook 记录app 搜索接口:输入框里输入 抖音id ,点击搜索,再点击搜索出来的 用户主页,随意滑动两下搜索接口url:search-lf.amemv.com/aweme/v1/general/search/single/?os_api搜索接口类型:post此搜索接口可以返回抖音用户的:昵称,个人简介,获赞数,关注数,粉丝数,uid(即:author_user_id,这个很重要,可以直接拼接用户主页链接)原创 2020-06-14 01:52:37 · 1189 阅读 · 0 评论 -
frida hook 操作流程介绍
环境:win10 + python 3.6.5 + 小米手机操作流程:手机用数据线链接电脑,打开文件管理模式,开发者工具设置里设置成可调试打开要hook的app,让它处于运行状态电脑打开一个cmd窗口,启动手机手机上的frida服务. adb shell. cd /data/local/tmp./frida-server-12.9.7-android-arm # 启动frida服务新打开cmd窗口,进入python环境frida-ps -U # 查看app进程python test原创 2020-06-11 19:02:51 · 1454 阅读 · 0 评论 -
协程的简单应用
协程在爬虫上的应用from gevent import monkeymonkey.patch_all()import geventimport requestsimport timedef get_page(url):print(‘GET: %s’ % url)time.sleep(2)response = requests.get(url)if response.status_code == 200:print(’%d bytes received from %s’ % (len(r原创 2020-06-01 11:49:23 · 170 阅读 · 0 评论 -
adb命令将抓包工具证书从用户目录移动至系统目录,解决反爬对于本地证书认证
adb命令将抓包工具证书从用户目录移动至系统目录,解决反爬对于本地证书认证代码和注释adb shell #连接手机进入shell模式#su root #如果你不root权限可以试着这个一般都是rootcd /data/misc/user/0/cacerts-added #移动至于用户证书目录mount -o remount,rw /system #将系统证书目录权限改成可读可写就可以移动文件不然不行cp * /etc/security/cacerts/ #这里可以使用cp也可以使用mv转载 2020-05-13 10:29:24 · 4369 阅读 · 0 评论 -
chrome浏览器插件之——reres 及 无限debugger的一种处理方法 及 chrome调试修改js变量值
环境:win7 + chrome遇见的问题:添加规则时,路径要写成 file:////C:/Users/thief/Desktop/ctrip/myjs.js,而不是 C:\Users\thief\Desktop\ctrip\myjs.js。不然可能在已经打对勾确定加载本地js文件后,刷新页面后并页面并没有展示出来内容...原创 2020-05-08 14:49:51 · 3954 阅读 · 3 评论 -
自动化工具之airtest
文档http://airtest.netease.com/docs/cn/1_quick_start.htmlhttps://poco.readthedocs.io/zh_CN/latest/source/README.html#sdk-integration原创 2020-04-18 13:44:48 · 1421 阅读 · 0 评论 -
python操作gif 图片拆分
# coding=utf-8import osfrom PIL import Image, ImageSequencedef parseGIF(gifname): # 将gif解析为图片 # 读取GIF im = Image.open(gifname) # GIF图片流的迭代器 iter = ImageSequence.Iterator(im)...转载 2020-04-07 15:54:25 · 1620 阅读 · 0 评论 -
nodejs 起接口服务
环境:win10 + pycharm + nodejs环境安装请自行百度首先在D盘新建个文件夹:NodejsWebServer然后在此处打开win命令行:node -v 查看是否正确安装了nodejsnode init 初始化项目, 可以直接按 enter 键,一直到它跑完npm install express 安装express框架npm install body-p...原创 2020-04-03 16:14:08 · 680 阅读 · 0 评论 -
base64 编码原理 及 爬虫遇到自定义b64加密
转载:https://mp.weixin.qq.com/s/XY6yf5PgwWPSRpVTzK1uGA转载 2020-03-31 09:38:15 · 331 阅读 · 0 评论 -
python async + pyppeteer 并发
# coding=utf-8import asyncio, timeimport pyppeteerfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers history status")async def get_html(url, timeout...原创 2020-03-26 15:14:31 · 912 阅读 · 0 评论 -
re 匹配中文
c = ‘大佬但斌都"望而却不"’b = re.findall(r’"([\u4e00-\u9fa5]+)’, c)print('b = ', b)b = [‘望而却不’]原创 2019-12-04 17:07:17 · 651 阅读 · 0 评论 -
fiddler 无法抓包问题
win7下Fiddler证书安装之后,总是无法抓取https的包;网上搜了很多方法都没解决问题,最终摸索解决方法如下:第一步:安装证书:到Fiddler的Tools-options-https下,勾选Capture HTTPS CONNECTS 勾选Decrypt HTTPS traffic勾选后,如果正常的话会直接提示安装证书;这时重启Fiddler就可以抓包了。但本人就遇...转载 2019-11-29 10:24:01 · 5221 阅读 · 0 评论 -
抓包工具安装及使用教程
1. fiddler:2. charles:3. mitmproxy:https://blog.csdn.net/qq_37253540/article/details/87936162遇到的坑:web可以正常抓取,手机无法抓取解决:把电脑上无线网络连接从专用设置为公用4. anyproxy:https://blog.csdn.net/dou_being/article/detail...原创 2019-11-22 16:07:30 · 398 阅读 · 0 评论 -
分享一个python日志模块
https://loguru.readthedocs.io/en/stable/index.html原创 2019-10-30 11:06:02 · 136 阅读 · 0 评论 -
企业名片 列表 数据加密, 利用xhr断点进行js分析
// https://www..cn/finosda/project/pinvestment1. 可以看到返回数据是加密的下边我们用xhr断点来调试分析,附:xhr断点介绍:XHR断点对于大多数初学者来说,可能不知道什么是xhr,但一般都听说过ajax,对的,就是指的在发送ajax(xhr)请求的时候进行阻断的断点,这个是全局断点,可以不提前指定要断哪一个xhr请求,也可以提前指定url...原创 2019-10-24 11:17:34 · 1463 阅读 · 0 评论 -
滑动拼图验证码思路
1. 最简单的的调用打码平台,收费2. 还有一种利用华为云物体检测接口,可以自己上传图片去训练模型,模型训练好后,部署上线,就可以直接用了,收费,目测一次0.27元,也没细算,有提供接口服务,重要可以自己提供数据训练模型3. 获取到一张完整的图片和带缺口的图片,利用PIL模块,对比两张图的像素点,计算出距离,然后selenium滑动,免费,比如:以下代码为虎嗅 登陆代码为18年...原创 2019-10-23 17:20:41 · 1142 阅读 · 0 评论 -
python发送邮件,发送txt附件
import smtplibfrom email.mime.text import MIMEText# 第三方 SMTP 服务mail_host = "smtp.qq.com" # SMTP服务器mail_user = "1159038@qq.com" # 用户名mail_pass = "pgs" # 密码 客户端授权码,不是邮箱密码sender = '115908@...原创 2019-10-23 09:50:29 · 1531 阅读 · 0 评论 -
日志.py
import syssys.path.append("./")from common.settings import *import osimport datetimelogger={"test":None,}def _log(file_path,platform,logging,RotatingFileHandler): """ 1.创建logger 2.创...原创 2019-10-23 09:46:04 · 159 阅读 · 0 评论 -
爬虫token参数分析记录
目标网站:http://tool.man目的:获取token参数加密规则。安装:pip install PyExecJS , 谷歌浏览器过程:网页源码看见, $("#iframeId").attr("src", "history2018.aspx?w=951&h=780&h2=420&m=1&e=1&browes=1&a...原创 2019-10-23 09:44:45 · 377 阅读 · 2 评论 -
毒 sign
var e = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";var get_00d8 = {rotl: function(t, e) { return t << e | t >>> 32 - e},rotr: function(t, e) { return...原创 2019-10-22 16:49:44 · 746 阅读 · 4 评论 -
反爬虫策略总结
反爬策略1. 最常见的 ip检测,ua检测2. cookie检测3. 需要登陆,又衍生各种出登陆验证,图片验证码,滑块等4. 参数加密:包括请求参数加密和返回数据加密。大致分为两大块:js加密及css反扒js加密需要进行js逆向解析,常见有rsa,aes, des, md5, base64 及一些自定义加密:如字符串置换css反爬包含css字体反爬(如大众点评,猫眼电...原创 2019-10-16 10:56:35 · 289 阅读 · 0 评论 -
爬虫加密参数:一号店 登陆密码 rsa加密调试
入口地址:https://passport.yhd.com/passport/login_input.dovar navigator = {};var window = this;var JSEncryptExports = {}; (function(a6) {var dQ;var dg = 244837814094590;var dE = ((dg & 16777215)...原创 2019-08-15 18:02:48 · 1170 阅读 · 0 评论 -
python获取指定日期内的所有日期,所有月份, 前几分钟、前几天
# coding=utf-8import datetimefrom datetime import timedeltadef gen_dates(b_date, days): day = timedelta(days=1) # print(day) for i in range(days): # print(b_date + day*i) ...原创 2019-08-16 10:46:55 · 6512 阅读 · 1 评论 -
写爬虫遇到 AES 加密参数
本次涉及三个网站:分别以编号 1 2 3 表示,文中所有1 2 3 分别代表三个网站1:https://www.jidaihome.com2.http://www.qhce.gov.cn/login.jsp3:https://web.ewt360.com/register/#/login?_k=zb7fzw通过分析网站得知:1:填充方式为Pkcs7; 加密模...原创 2019-08-01 21:01:37 · 2505 阅读 · 0 评论 -
python读取字体文件,转成xml并解析xml数据
# coding=utf-8from fontTools.ttLib import TTFontworld = TTFont('898a472b.woff')# 读取响应的映射关系uni_list = world['cmap'].tables[0].ttFont.getGlyphOrder() # 'cmap' 表示汉字对应的映射 为unicode编码print(uni_list)...原创 2019-08-20 18:52:36 · 2738 阅读 · 1 评论 -
charles抓包参数格式化输出
新建个 00.txt 文件,直接复制粘贴进去,然后运行,结果就是像个字典样式的输出,再复制粘贴到代码里,省的一行行手动添加引号,都好啥的。datas = open('00.txt', 'r', encoding='utf-8')datas = datas.readlines()print('{')for data in datas: print('"%s": "%s",' % ...原创 2019-08-15 10:52:13 · 858 阅读 · 0 评论 -
爬虫报错
1. scrapy 代理ip 报错 》》Connection was refused by otherside: 111: Connection refused.0暂无解。。。。。。50%概率性出现2. HttpConnetentErro手机版url用 手机版 uaurl格式3. 编码content = response.read().decode('...原创 2018-04-28 09:44:15 · 727 阅读 · 0 评论 -
selenium webdriver 启动三大浏览器Firefox,Chrome,IE
博客园 首页 新随笔 联系 管理 订阅随笔- 30 文章- 1 评论- 19selenium webdriver 启动三大浏览器Firefox,Chrome,IEselenium webdriver 启动三大浏览器Firefox,Chrome,IE1.安装selenium在联网的情况下,在Windows命令行(cmd)输入pip install selenium即...转载 2018-05-30 15:36:28 · 355 阅读 · 0 评论 -
自定义字体文件解析成人眼可识别文字
# coding=utf-8from fontTools.ttLib import TTFontfrom PIL import Image, ImageDraw, ImageFont #绘制图片import numpy, os, platformimport pytesseract #文字识别库,这个包的安装还需要安装tesseract.exe,可以网上搜教程# coding=...原创 2019-08-21 16:18:52 · 670 阅读 · 0 评论 -
汉字生成woff字体文件
# coding=utf-8import codecsfrom fontTools import unichr# 生成所有汉字信息# start,end = (0x4E00, 0x9FA5) # 汉字u编码范围 16进制的# with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:# for codep...原创 2019-08-22 10:43:37 · 1323 阅读 · 0 评论 -
字体反爬解决方案
因本人写的pdf文档,懒得再这里重写一遍,就放个百度云链接把包含svg矢量图 和 字体两种方案,字体里又包含两种解析方案链接:https://pan.baidu.com/s/1BYqTzyY0qWCWxKOOrMwtog提取码:12gt有不对的地方,还请指教!!!若提示提取码过期,请留言...原创 2019-08-22 16:46:47 · 226 阅读 · 0 评论 -
xpath 获取某个标签下的所有子节点
//div[@class="main"]//span[@id="address"]//d | //e或者//div[@class="main"]//span[@id="address"]/*原创 2019-08-28 10:31:59 · 18441 阅读 · 4 评论 -
分布式爬虫管理框架
ScrapydGitHub:https://github.com/scrapy/scrapydGerapyGitHub:https://github.com/Gerapy/Gerapy推荐链接:https://cuiqingcai.com/4959.html原创 2019-08-28 14:14:19 · 359 阅读 · 0 评论 -
json.loads()报错处理
# coding=utf-8import json, rea = '''{"bulletAttributes":["A-line silhouette with a relaxed fit.","High waisted.","Hits at the upper calf.","Model is 5'9" (176 cm), size S, wearing a regular Gap s...原创 2019-08-29 11:56:39 · 2027 阅读 · 0 评论 -
多路开车——指定线程数的方式实现python多线程及多线程获取返回值
# coding=utf-8import threading, time# 1、自己写代码实现def get_detail_video(vid): print('-->', vid) time.sleep(2)ths = []for i in range(10): th = threading.Thread(target=get_detail_vi...原创 2019-09-05 16:29:59 · 645 阅读 · 2 评论