- 博客(14)
- 收藏
- 关注
原创 Akamai2.0 反爬虫系统 sensor_data参数及akamai-bm-telemetry参数逆向分析
关于akamai2.0反爬系统的逆向分析
2023-06-04 00:54:54 5843 10
原创 瑞数自动化工具检测和绕过
分析瑞数对自动化工具的检测window对象中检测的属性有["_Selenium_IDE_Recorder", "_selenium", "callSelenium"]window[“clientInformation”][“webdriver”]window[“navigator”][“webdriver”]document对象中检测属性有["__driver_evaluate", "__webdriver_evaluate", "__selenium_evaluate", "_
2021-08-20 11:17:45 2224
原创 记一次Scrapy 打包exe的坑
记一次Scrapy 打包exe的坑问题: 使用pyinstaller 打包scrapy项目,其中用了openpyxl 导致无法加载piplines;解决: 在启动前导入openpyxlimport openpyxlfrom scrapy.crawler import CrawlerProcessfrom scrapy.utils.project import get_project_settings...
2021-01-06 01:16:25 383
转载 Fiddler HTTPS Andrioid 9.0证书解决方案
Fiddler HTTPS Andrioid 9.0证书解决方案Android 7.0后更新安全策略,软件可以自身选择是否相信用户导入的证书。所以当我们在手机导入Fiddler的证书后,有些软件依旧抓不到Https的包。解决方案有2个:APK里面加入相应的代码把Fiddler证书导入到手机系统里面而非个人里面一、首先将Fiddler证书导出来,保存为Fiddler.cer二、Li...
2019-11-26 22:29:47 5702 3
原创 记录前端反爬反调试的解决方案
解决前端页面反调试解决方案一般前端反调试的都是这种代码(function() {var a = new Date(); debugger; return new Date() - a > 100;}())是通过eval 方式执行的定位到此代码,右击选择 Never paruse here这样调试的时候 就不会在此位置进行断点操作。...
2019-08-20 21:10:03 1756 1
原创 某版本瑞数解决方案-爬虫
某版本瑞数解决方案-爬虫前言工具分析过程JS获取js代码分析附代码前言本次采集的目标站点是江苏省农村产权交易信息平台,网址http://www.jsnc.gov.cn/jygg/tzgg/index.html。没想到这么小的网站都上瑞数了,爬虫真是越来越难了。回归正题,该网站的防御机制是在cookie上做了手脚,cookie名称为YwnBCHQI8xgWI5a。工具Chrome浏览器(方...
2019-08-13 01:03:58 8184
原创 MongoDB给表设置唯一主键记录。
爬虫时,存入MongoDB,防止数据重复可以添加主键db.表名.ensureIndex({'字段名':1},{unique:true})
2019-07-17 15:23:55 4369
原创 Scrapy MongoDB异步插入
这里写自定义目录标题MongoDB 异步插入写法MongoDB 异步插入写法由于Scrapy 是异步执行,写入数据库时如果用传统的写入方法,这样会拖慢速度在settings.py添加MONGO_URI, MONGO_DB,MONGO_COLMONGO_URI = 'mongodb://127.0.0.1:27017/'MONGO_DB = '数据库名'在pipelines.py 中:...
2019-07-17 15:11:16 1437 1
转载 用Pyinstaller打包selenium的去掉chromedriver黑框!
解决方案就是修改selenium包中的service.py(selenium->webdriver->common->service.py)源码。保存之后打包selenium 就不会出现黑框的问题。问题交流加QQ 240942649...
2019-05-11 00:21:15 930
原创 记录一次爬虫实战中使用selenium遇到的问题
目标站点https://iplay.163.com/hot (网易LOOK直播网站)1.首先分析页面,发现获取主播的数据接口请求是加密的,通过下滑出发JS发送请求。不想分析2.采用selenium 模拟 下滑(问题)3.配置selenium 不加载图片(省去不必要的时间)chrome_options = webdriver.ChromeOptions()prefs = { 'pr...
2019-03-21 20:58:35 317
原创 利用Pyinstall打包成exe出现在错误 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in positio
最近用PyQT5写了一个桌面应用(爬虫),那么问题来了 如果 打包成exe呢?打包前的环境:1.Windows102.Anaconda3.61. 入坑前的准备网上关于PyInstall 打包的讨论比较多,此次打包就采用Pyinstall 打包安装很简单pip install pyinstall或者可以去GitHub下载测试版本,可以认为测试版本比较好用2. 使用方法pyinst...
2019-03-12 14:19:36 1336
原创 关于爬虫中&#开头的编码转换中文以及XPath提取原文的HTML
XPath提取原本Html在提取页面数据的时候需求是不仅仅提取文本而且还需要当前节点的html文本from lxml import etreeurl = 'http://zujuan.xkw.com/xxsx/zj101446/o2p2/index.htm'response = requests.get(url)html = etree.HTML(response.text)body_...
2019-03-08 16:05:03 1193
原创 小伟哥哥的第一篇博客(记录MarkDown的使用方法)
小伟哥哥的第一篇博客今天很高兴想开始改变自己新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入今天很高兴想开始改...
2019-03-07 11:19:40 694
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人