
Python爬虫
文章平均质量分 65
zerone-f
这个作者很懒,什么都没留下…
展开
-
python 使用execjs执行接js解密时报错execjs UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte
最近在部署一个爬虫程序是,出现了这个错误,其实是解决过一次了,在最近对爬虫代码进行交接的时候,又遇到了这个问题。UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa7inposition1425:illegalmultibytesequence文章地址:https://zhaojiafu.blog.csdn.net/article/details/99984352...原创 2021-03-01 16:09:15 · 548 阅读 · 0 评论 -
Selenium下Chrome配置 (含启动无痕界面--无界面浏览器)
转载:https://www.cnblogs.com/kaibindirver/p/11432850.htmlSelenium下Chrome配置 (含启动无痕界面--无界面浏览器)例子: 设置无界面模式浏览器启动chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')driver = webdriver.Chrome(chrome_options=chrome_options)转载 2021-02-24 09:22:27 · 2795 阅读 · 0 评论 -
selenium变速移动验证码滑块
转载:selenium变速移动验证码滑块'''先加速后减速'''from selenium.webdriver import ActionChainsfrom selenium import webdriverimport timedriver=webdriver.Chrome()driver.get("https://www.qichacha.com/user_login")time.sleep(1)driver.find_element_by_xpath('//*[@id="nor转载 2021-02-22 15:32:43 · 1182 阅读 · 0 评论 -
Xposed HOOK 闲鱼的x-sign参数
最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝直播APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。技术支持,扣扣:3165845957{"x-sign":"azSdY1002xAAGTOrG3oat7W3Cl5CuTOpOyrE7MLTDcHmpOcYgQ2AAK2s8P5+RHf/cTJX5G3EEiBQo/ftY5h33uGe4jkzuTOpM7kzqT","wua":"","x-mini-w原创 2021-01-02 10:48:54 · 8980 阅读 · 9 评论 -
在已解锁的Google Pixel安装Xposed框架
零、为什么写这篇博客?在今年九月份的时候,搞了三台已解锁的Google Pixel手机(买的是二手手机,已经让卖家解锁好了),在上面安装Xposed框架,来做APP数据采集,当时弄了很长时间,开始是使用Andriod 7.0系统,在安装环境的过程中一直遇到问题,但是将系统升级到Andriod 8.0后,问题就解决了,后面就是从一个解锁过的手机上,一步一步的安装整个采集环境。由于但是解决问题后没有写笔记做记录,现在(2020.11.30)公司需要在20台这个版本的手机上安装APP采集环境,之前的操作细节节原创 2020-11-30 17:38:17 · 6092 阅读 · 1 评论 -
安卓逆向Xposed HOOK TB APP的x-sign参数
最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。包括获取deviceId、sid、uid、appKey、lat、lng、utdid、ttid、x-sign信息。本文只用于学习交流,请勿他用。技术支持,扣扣:3165845957商品ID:goods_ids.txt商品详情:goods_detail.txt商品详情信息:{"vid":原创 2020-11-27 16:11:36 · 2291 阅读 · 2 评论 -
安卓逆向Xposed HOOK TB直播APP的x-sign参数(二)
最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝直播APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。分析展示{"x-sign":"azSdY1002xAAGTOrG3oat7W3Cl5CuTOpOyrE7MLTDcHmpOcYgQ2AAK2s8P5+RHf/cTJX5G3EEiBQo/ftY5h33uGe4jkzuTOpM7kzqT","wua":"","x-mini-wua":"HHnB原创 2020-12-14 20:51:32 · 5391 阅读 · 0 评论 -
模拟器网络桥接教程
有时候模拟器需要进行桥接,才能满足我们需要的网络需求,下面就记录一下自己在摸索模拟器桥接的方法步骤。目录一、夜神模拟器1.打开夜神模拟器设置2.选择手机与网络3.重启4.查看模拟器IP5.网络端口映射6.启用一个hook程序,验证服务是否可用二、雷电模拟器1.打开设置2.打开网络设置3.打开桥接模式4.安装网络驱动5.重启模拟器6.查看模拟器IP三、可以根据具体需求选择桥接的网络1.网卡选择2.模拟器可以根据具体需求进行选择3.电脑原创 2020-10-19 19:53:19 · 24789 阅读 · 4 评论 -
微信公众号数据采集
目录一、采集公众号文章URL1.运行环境1.Webdriver2.python运行环境3.cx-oracle4.lxml5.注册一个微信公众号2.采集文章连接1.配置config.txt2.启动程序二、采集文章详细信息1.配置detail_config.txt2.启动程序三、数据1.数据库2.Execl最近统计感兴趣的公众号的阅读数据,这篇文章就记录一下实现过程。本文只用于学习交流,请勿他用。一、采集公众号文章URL本程序主要考虑.原创 2020-10-12 11:15:10 · 4789 阅读 · 2 评论 -
安卓逆向Xposed HOOK TB直播APP的x-sign参数
最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝直播APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。一、环境工具环境:windows 10设备:雷电模拟器,google pixelHOOK框架:Xposed插装工具:Frida编译器:android studio反编译工具:jadx抓包工具:Charles分析APP:某淘直播apk(com.***.live_1.8.6原创 2020-10-01 11:28:44 · 14765 阅读 · 2 评论 -
Android 逆向常用命令
在学习《[Android]应用安全防护和逆向分析》过程中,记录一些常用的命令。目录一、非shell命令二、shell 命令三、操作apk命令四、进程命令一、非shell命令1.adb shell dumpsys activity top说明:可以查看当前应用的activity信息。用法:运行需要查看的应用。案例:adb shell dumpsys activity top2.adb shell dumpsys package说明:可以查看指定包名应用的详细信息(..原创 2020-09-23 16:01:42 · 853 阅读 · 0 评论 -
如何抓取基于Flex技术的网站
Adobe Flex是基于Flash平台,涵盖了支持RIA(Rich Internet Applications)的开发和部署的一系列技术组合。有很多基于Web的网络游戏都是采用Flex技术开发的。Flash(客户端)与服务器之间通信既支持HTTP协议(具体的正文消息格式可以是text、XML、JSON、AMF等)也支持原始的Sockets,以HTTP协议较为常见。对于使用text,XML或JSON形式消息格式的Flex应用来说,对其的分析和抓取方法与基于Ajax的网站一样:通过HTTP协...转载 2020-09-17 19:52:49 · 2360 阅读 · 0 评论 -
APP数据采集
本文内容来自网络,在自己进行技术调研的手机APP数据采集是网上搜集的资料。其实所谓抓取APP数据和抓取网页数据是存在一定的不同,抓取网页数据可以采用模拟访问网站然后抓取网页接收内容的模式进行数据抓取。而APP则更倾向于通过截获数据传输包的形式进行(Wireshark和Fiddler+Python)。一般来说,我们用WireShark+Fiddler来获取大部分数据是没有多大问题的。但这里有个问题是,如果你碰到的是用SSL/TLS等加密手段加密过的网络数据的时候,往往我们只能束手无策。在过去的话...转载 2020-09-07 20:18:59 · 4303 阅读 · 4 评论 -
Xposed项目环境搭建
目录一、开发环境AndroidStudio 3.5.3Android SDKXposed二、创建项目创建android开发基础项目添加引用声明Xposed模块编写hook代码声明类的入口三、编译测试编译打包成apk安装测试一、开发环境Windows10系统 AndroidStudio 3.5.3 Android SDK XposedAndroidStudio 3.5.3下载安装Android Studio,https://deve...原创 2020-09-07 19:44:00 · 1472 阅读 · 0 评论 -
手机APP逆向工具介绍
目录一、工具1.抓包分析工具2.APP逆向分析工具3.APP代码HOOK工具二、抓包分析工具1.抓包2.代理抓包Packet Capture BurpSuitemimtproxyFiddlerCharls代理dronysocksDroidJustTrustMe三、APP逆向分析工具1.反编译2.查壳3.脱壳4.调试反编译Apktooldex2jarjd-guijadx...原创 2020-09-07 18:53:15 · 7943 阅读 · 0 评论 -
手机APP数据包抓包分析
最近在对手机APP请求的数据包进行抓包分析,但是在一些运用中,使用简单的HTTP或者HTTPS数据包抓包配置无法抓取到我们想要的数据包。这时候就需要我们借助其他工具来抓取APP的数据包。一、工具模拟器——雷电https://www.ldmnq.com/ld_update_log.html抓包APP——拼夕夕链接:https://pan.baidu.com/s/1Pi6k9UU9u44EFEETXiI-tw 提取码:g3us抓包工具——Charls链接:https://...原创 2020-09-01 23:55:25 · 15322 阅读 · 6 评论 -
Python3操作Execl工具类
import xlrdimport xlwtfrom xlutils.copy import copyclass XlsUtil(): ''' execl操作工具类 ''' def path_is_exist(self, path): ''' 判断是否存在工作簿 :param path: 工作簿名称 :return: 存在 返回True; 不存在 返回False ''' .原创 2020-08-01 11:07:26 · 532 阅读 · 0 评论 -
Ubuntu中使用python3中的venv创建虚拟环境
以前不知道Python3中内置了venv模块,一直用的就是virtualenv模块,venv相比virtualenv好用不少,可以替代virtualenv一、安装venv包$ sudo apt install python3-venv二、创建虚拟环境首先创建一个项目文件夹,虚拟环境将会安装在项目文件夹下,我这里使用的项目文件夹是myproject,进入mypeoject文件夹,执行命令:$ python3 -m venv venv这时虚拟环境就创建好了,默认是Python3的环境转载 2020-07-11 13:38:01 · 908 阅读 · 0 评论 -
在线反混淆网站
https://www.bm8.com.cn/jsConfusion/原创 2020-06-29 11:44:28 · 126167 阅读 · 0 评论 -
WebDriver大全
Firefox浏览器驱动:geckodriverChrome浏览器驱动:chromedriver , taobao备用地址IE浏览器驱动:IEDriverServerEdge浏览器驱动:MicrosoftWebDriverOpera浏览器驱动:operadriverPhantomJS浏览器驱动:phantomjs原创 2020-06-02 10:48:45 · 303 阅读 · 0 评论 -
Centos安装Python3 Oracle数据库驱动cx-Oracle
目录一、下载Oracle数据的instantClient二、安装Oracle数据的instantClient并配置环境变量三、安装cx-Oracle在本篇文档中,我们使用的是Oracle 11g数据库,所以安装的cx-Oracle版本为5.3一、下载Oracle数据的instantClient下载连接https://www.oracle.com/database/technologies/instant-client/linux-x86-64-downloads.html下载..原创 2020-05-21 15:48:18 · 724 阅读 · 0 评论 -
docker centos 镜像中安装python36详解!生成centos+python36的基础镜像
目录一、docker拉取centos进行并启动1.拉取centos镜像2.启动并进入centos的容器二、安装python31.安装python3环境依赖2.移除centos中自带的python2.7的环境变量3.下载python3.6.8的源码压缩文件4.安装python3.6.8三、安装pip工具四、导出当前容器为镜像,并上传到局域网镜像库一、docker拉取centos进行并启动1.拉取centos镜像docker pull centos...转载 2020-05-21 14:11:01 · 546 阅读 · 0 评论 -
反爬虫简述
爬虫程序的访问速率和目的与正常用户的访问速率和目的是不同的,大部分爬虫会无节制地对目标应用进行爬取,这给目标应用的服务器带来巨大的压力。爬虫程序发出的网络请求被运营者称为 "拉圾流量"。 开发者为了保证服务器的正常运转或降低服务器的压力与运营成本,不得不使出各种各样的技才手段来限制爬虫对服务器资源的访问。因为爬虫和反爬虫是综合技术的应用,反爬虫的现象与爬虫程师所用的工具和开发语言有关,甚至与爬虫工程师的个人能力也有一定关联.所以反爬虫的概念常模糊,业内并没有明确的定义。 简而言之,限制爬虫程序访问服务转载 2020-05-16 09:43:37 · 1253 阅读 · 0 评论 -
Python3爬虫Scrapy框架常用命令
全局命令 bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider Run a self-con...原创 2020-04-11 10:06:23 · 833 阅读 · 0 评论 -
【HTTP】Fiddler(三)- Fiddler命令行和HTTP断点调试
目录一.Fiddler内置命令1.select命令2.allbut命令3.?text命令4.>size和命令<>5.=status命令6.@host命令7.Bpafter,Bps,bpv,bpm,bpu二.使用Fiddler进行HTTP断点调试设置断点终止断点一.Fiddler内置命令上一节...转载 2020-04-09 19:30:11 · 174 阅读 · 0 评论 -
【HTTP】Fiddler(二) - 使用Fiddler做抓包分析
目录Fiddler抓取HTTP请求1.Statistic2.Inspectors3. AutoResponder4. Composer5. Filter上文(http://blog.csdn.net/ohmygirl/article/details/17846199)中已经介绍了Fiddler的原理和软件界面。本文主要针对Fiddler的抓包处理。Fiddl...转载 2020-04-09 19:23:43 · 230 阅读 · 0 评论 -
【HTTP】Fiddler(一) - Fiddler简介
目录1.为什么是Fiddler?2.什么是Fiddler?3.Fiddler使用界面简介1.为什么是Fiddler?抓包工具有很多,小到最常用的web调试工具firebug,达到通用的强大的抓包工具wireshark.为什么使用fiddler?原因如下:Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大。模拟http请求的功能也不够,且fireb...转载 2020-04-09 19:12:01 · 195 阅读 · 0 评论 -
Java语言实现 Base64 加密 & 解密
Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。 Base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息。 采用Base64编码具有不可读性,需要解码后才能阅读。 Base64由于以上优点被广泛应用于计算机的各个领域。 本文讲解如何使用Java语言实现Base64的加密和解密。(基于...转载 2020-03-26 14:57:06 · 752 阅读 · 0 评论 -
Python打开文档的几种类型
只读的方式打开,文件的指针停放在文件开头参数 含义 w 打开文件用于写入,(写入的代码后边),如果文件存在,就覆盖文件内容,文件不存在,就新建文件,用于存储 a 打开文件用于追加,继承w的特性(当文件存在内容时a不会覆盖),追加的内容将加在文本最后 rb 以二进制的方式打开文件,用于只读。(其余与r 相同) wb 以二进制的方式打开,写入。(其余与...原创 2020-03-23 20:48:26 · 592 阅读 · 0 评论 -
Python3爬虫解决获取异步请求数据问题
Table of Contents问题描述解决思路方案一方案二问题描述在爬取数据详情页面时候,需要将评论数(评论条数)爬取到,但是评论数和详情页面的数据不是同步请求的,在后于详情页面载入数据,如果使用urllib.request.openurl直接抓取页面,得到的结果就是在抓取的页面时,评论数还没有填充到页面上,导致无法获取评论数据。解决思路方案一既然是评...原创 2020-03-23 20:39:55 · 2486 阅读 · 0 评论