Python
文章平均质量分 69
Python成长路
如果连方向都是错误的,那么努力还有什么意义呢
展开
-
Python操作Windows共享文件夹
指定可以访问用户的权限,默认当前用户和管理员有可读可写的权限。访问时会要求输入用户名密码,也可以增加Everyone,这样就可以不指定用户密码,Everyone默认权限是可读,可以自行修改。比如共享E盘,我的电脑右键E盘,选择共享一栏->高级共享-勾选共享,设置权限即可。如果不需要Everyone的访问,可以不修改权限。第一个参数是共享文件夹名称,也就是上面的Software。获取文件或文件夹信息,比如创建时间,文件大小,修改时间等。第二个参数是要删除的文件,可包含通配符。目录,第二个参数就填。原创 2023-03-06 18:22:30 · 3270 阅读 · 0 评论 -
用Python发送微信消息给好友(优化篇)
之前说了怎么写机器码到内存,然后调用。现在说说怎么优化。原创 2022-06-06 21:47:25 · 3122 阅读 · 14 评论 -
用Python发送微信消息给好友
原理:Windows逆向,通过内联汇编的形式调用发消息的函数。用Python将汇编转为十六进制的机器码,写入到内存后,也是可以正常执行的原创 2022-06-06 08:47:48 · 9868 阅读 · 5 评论 -
css选择器提取html
html提取方式一般有xpath和css两种,这在scrapy和pyppeteer中都可以使用。pyppeteer更倾向于css选择器来提取元素原创 2022-05-26 11:20:39 · 828 阅读 · 0 评论 -
Python调用java代码
毫无疑问用的是Jpype,因为百度一搜都是它。github:https://github.com/jpype-project/jpype官方文档:https://jpype.readthedocs.io/en/latest/安装:pip install JPype1被调用的Java代码RSAUtils.javapackage com.commonsdk.utils;import java.io.ByteArrayInputStream;import java.io.ByteArrayOut原创 2022-02-26 13:53:13 · 1563 阅读 · 1 评论 -
OSError: could not get source code
使用scrapy的日志有一大半的报错都是下面这个,错误原因很简单,记录一下找错的过程Traceback (most recent call last): File "/opt/miniconda/envs/app/lib/python3.8/site-packages/scrapy/utils/defer.py", line 55, in mustbe_deferred result = f(*args, **kw) File "/opt/miniconda/envs/app/lib/py原创 2022-02-25 16:19:22 · 2945 阅读 · 1 评论 -
pyppeteer的一些使用
一些默认属性import pyppeteerprint('默认版本是:', pyppeteer.__chromium_revision__)print('可执行文件默认路径:', pyppeteer.chromium_downloader.chromiumExecutable)print('win64平台下载链接为:', pyppeteer.chromium_downloader.downloadURLs)print('chrome启动的默认参数:', pyppeteer.defaultArgs原创 2022-01-27 10:31:35 · 2656 阅读 · 1 评论 -
安卓逆向新人练手项目
前言这段时间开始接触安卓逆向,说一下我的大致的学习步骤:学一个新知识之前需要对这个知识有一定的概念,比如js逆向,肯定要抓接口,然后看参数,搜参数,打断点等。那么拿到一个APP下一步要干些什么也需要有一些概念。如何积累概念:多看一些逆向的文章,某些地方没看懂不重要,重要的是流程你有个大概了。找一些简单的例子练练手,比如吾爱破解论坛的:https://www.52pojie.cn/thread-408645-1-1.html。另外吾爱破解的移动安全区也有很多的文章可以看看。还有一些Crackme拿来练原创 2021-03-03 14:59:39 · 1564 阅读 · 0 评论 -
frida Python与js脚本交互
前言上一篇文章说了怎么hook获取参数和修改参数:https://blog.csdn.net/Qwertyuiop2016/article/details/114284618?spm=1001.2014.3001.5502这篇看文档的下一个内容:https://frida.re/docs/messages/。使用的示例程序还是原来的程序。Python与js交互其实就是我们的程序和我们hook的程序进行交互,因为js代码是作用于hook的进程。js发送消息send.pyfrom __future__转载 2021-03-02 16:04:31 · 5161 阅读 · 0 评论 -
frida hook Windows程序
前言最近在看frida的使用,就阅读了一下官方文档在此记录一下。此篇内容:https://frida.re/docs/functions/内容讲的是用frida hook C语言编写的控制台程序,我用的C编译器Dev C++: https://wwx.lanzoui.com/iIEQlmddw7c第一个例子:hello.exeexe代码,将这个代码命名为hello.c用dev打开编译一下会生成hello.exe。打开让他一直运行,并记录打印的f函数地址#include <stdio.h&g转载 2021-03-02 15:37:08 · 7202 阅读 · 1 评论 -
基于文件和内存的布隆过滤器
前言如果使用scrapy的话,去重可以直接使用scrapy_redis和scrapy_redis_bloomfilter都是已经封装好了,直接修改配置就能使用,但是很多时候我只是写一个小爬虫,不想使用scrapy如何持久化去重。基于redis的布隆过滤器将需要去重的数据存成文件,或者存到redis集合也可以达到去重的效果。但是我又想使用布隆过滤器节省内存怎么办,那么可以直接使用scrapy_redis_bloomfilter这个库就行。可以看到其实这个库里面真正去重的是bloomfilter.py这原创 2020-11-13 11:29:12 · 403 阅读 · 0 评论 -
微信公众号采集方案(基于Windows逆向)
引言目前微信公众号采集基本只有几种特定的方法了搜狗微信无法采集历史了,而且搜索也不按时间排序。获取的数据的价值不高,不过可以通过他来获取公众号的biz。微信公众平台微信公众平台虽然可采集历史,但限制很大,没抓多少就被封接口了。安卓端微信网上很多关于xposed hook微信公众号实时推送文章的一些采集方案,这个能用。但是只能使用旧版微信,新版微信对xposed有检测。而且旧版微信会限制刚注册的微信号登陆。不过有方法解决:hook掉检测的代码,目前我还做不到这个程度。我见过有大佬实现原创 2020-11-02 09:17:37 · 13030 阅读 · 28 评论 -
splash官方文档解读(翻译)
安装splash是一个类似于selenium的自动化浏览器,不过它与selenium还是有很大区别的:比如splash是异步的,splash暴露httpAPI来自动化操作。安装很简单,需要先安装docker,然后拉取镜像:sudo docker pull scrapinghub/splash启动splash:sudo docker run -it -p 8050:8050 --rm sc...原创 2020-04-27 13:14:24 · 2041 阅读 · 0 评论 -
验证码识别之二值化
前言二值化顾名思义就是将数变成两种值,一般非0即1。而在验证码处理中,如果直接使用灰度图,那么每个像素的值会在0-255,这样肯定会增加计算时间,而二值化后每个像素的值只是0和1。在前面的简单验证码识别中,我的二值化代码是这样写的:a = (a > 180) * 255,至于这里为什么不乘1而乘255,因为我要显示图片看看效果。如果只是用于算法识别的话,乘1会更好。但是,这里的180也就...原创 2020-01-14 12:02:44 · 1369 阅读 · 0 评论 -
scrapy抓取知乎所有用户信息
崔庆才老师scrapy爬取知乎用户信息博客我的代码github地址scrapy中文入门文档看完别人操作一遍,肯定要自己动手做一下,否则看的有什么意思呢。我看了一下知乎,发现并没有什么太大的变化,唯一变化的是鼠标移到用户名的时候,显示的信息比老师演示的时候要少,基本和ajax获得的信息一样,所有我爬的时候并没有请求详细信息。说一下我遇到的问题吧,当我爬到一万多条用户消息的时候,响应码全部变...原创 2018-11-09 16:34:10 · 897 阅读 · 0 评论 -
异步代理池
前言我们从代理商买了代理后,代理商提供的接口返回的代理其实可用率还是值得深思的。如果你有钱,买的是代理商自建的代理,那可用率很高,也就不需要使用代理池筛选了。如果像我这样的学生党,只能买得起测试级别的代理,这种代理一般是代理商扫描出来的,可用时间和可用率可想而知,这样就需要一个代理池筛选出有用的代理并提供接口给爬虫。既然只是为了测试代理的可用性,那么asyncio+aiohttp再合适不过了(...原创 2019-04-16 18:06:13 · 313 阅读 · 0 评论 -
字体反爬之实习僧
字体反爬是爬虫不可避免的一道关卡,因为这是成本比较低,而且效果还不错的一种方式。今天我们先看看实习僧的字体爬虫怎么破解。首先我们先随便搜索一个职业,https://www.shixiseng.com/interns?k=数据库&p=1。F12查看源码发现,职业的某些汉字字母和所有数字都是框框,这基本可以确定使用了自定义字体。这里可以看到li标签有一个font属性,点击一下这个标签,右...原创 2019-04-21 14:45:46 · 1070 阅读 · 2 评论 -
scrapy爬取实习僧全站
最近想爬一下各大招聘网站来分析一下,首先我们从实习僧开始。原创 2019-04-21 15:28:02 · 837 阅读 · 0 评论 -
水文一篇
最近在爬拉勾,遇到一些问题,给后来的小伙伴总结一些经验。这里我们只谈技术,不谈代码。如果不是为了学习经验的话,还请移步百度。首先说一下拉勾的反爬:IP频率限制,头信息限制,cookie时时验证。IP频率限制:这是最常用,也是最有效的反爬机制之一,并没有测试拉勾的爬取阈值是多少。有兴趣的可以自己去测一下。头信息限制:拉勾对头信息的要求很高,如果你的头信息不全,会得到302或者无法访问的情况,...原创 2019-04-26 11:58:58 · 873 阅读 · 1 评论 -
scrapy使用心得(入门教程)
scrapy官网:https://doc.scrapy.org/en/latest/topics/settings.html基本上没有什么教程可以媲美官方文档的,所有的教程不过是在解读官方文档。所以,如果你有耐心的话可以自己看官方文档。使用谷歌浏览器自带的谷歌翻译可以看得懂,不像python官方的文档,机翻出来基本天书。关于各组件的功能,我觉得这个博客写的很好。可以看一下https://www...原创 2019-04-20 13:21:31 · 2544 阅读 · 0 评论 -
centos服务器搭建代理
买了两个腾讯云的学生机,一直放着没什么用。以前将jupyter配置在服务器上,感觉还不错。但这也太浪费服务器了。于是就像搭建代理供爬虫使用,遇到一些坑,记录一下。第一步(说明一下,这里无法使用vi,因为是内存中的文件)# 确认服务器端ip_forward转发开启echo 1 > /proc/sys/net/ipv4/ip_forwardip_forward需要设定为1sysctl...原创 2019-05-13 22:43:34 · 4762 阅读 · 0 评论 -
pyppeteer的基本使用
最近在使用pyppeteer抓淘宝,同事使用JavaScript写调用puppeteer能完美运行。但我改成python就一直报这样一个错误:pyppeteer.errors.NetworkError: Protocol Error (Page.navigate): Session closed. Most likely the page has been closed而代码中造成这样一个错误...原创 2019-06-17 18:12:32 · 16138 阅读 · 4 评论 -
有道翻译小爬虫
最近想开始学习一下js逆向,发现有道翻译的js真的是非常适合没有玩过js逆向的小白练手。破解的话完全没有任何技术含量,只需要你会浏览器断点和Ctrl + F就行。甚至连js代码都看不懂也没关系。我们先输入一个词(翻译),然后看Network里的请求,很明显第一条就是翻译的接口了。因为下面的都是加载的图片链接。当然,我们可以点击请求,查看response或者preview里的内容确认一下有没有我们...原创 2019-07-23 15:31:05 · 596 阅读 · 0 评论 -
B站视频下载
看B站的时候,有时候看到很喜欢的总想下载下来,虽然APP里提供了下载,但奈何下载的格式不知道是什么格式,无法在其他播放器里看,于是就想下载到本地。当然,就目前而言,WiFi和流量其实足以替代大部分硬件存储。所以这个需求不是很高,只是个人爱好。...原创 2019-04-15 18:33:27 · 9363 阅读 · 1 评论 -
抓取B站所有用户信息(11/29更新数据)
有时候没有实际需求,那学习就只能从爱好入手了。 目前我所想到的一些感兴趣的任务有,B站所有用户、B站视频下载、B站弹幕和评论分析(这个就有意思了,弹幕和评论是可以知道是谁发的,那么当你有了B站所有弹幕和评论的时候,你就可以从一个人发的弹幕和评论分析这个人的性格特点,不过想要所有数据,这几乎是不可能的,代理数量和质量达不到)、虎牙和斗鱼直播视频和弹幕实时获取(主要是没时间去看,只能下下来空闲的时候...原创 2019-04-14 10:31:07 · 18416 阅读 · 17 评论 -
Windows和Ubuntu安装MongoDB
今天突然想在自己的笔记本和服务器上装MongoDB,遇到一些坑。Windows:安装在c盘以外就报错,无论是data、log、还是mongo程序。只要一直点下一步啥事没有,我表示很无语。Ubuntu : 这个安装就比较坑了,我首先参照的是崔庆才大神的博客,前面一直没什么问题,这里不知道为什么,运行了sudo apt-get install -y mongodb-org之后,输入mongo...原创 2018-11-17 03:45:49 · 1684 阅读 · 0 评论 -
Ubuntu服务器长时间运行爬虫程序
————————————————————————————————————————最近想爬一个小型网站,目前已经拿到的没有去重的URL有30万个,我要进一步拿到URL的详细信息,但因为网站服务器抗压有限(前面的30万个url是因为网站有api,我直接拿到的),基于爬虫程序员的素质,我只能每爬一个URL就sleep几秒,这样就需要很长的一段时间了。(还是淘宝、知乎等大网站好,人家基本是你随便爬,在我...原创 2018-11-19 10:27:59 · 1536 阅读 · 2 评论 -
模仿pyspider写招聘网站爬虫
马上要毕业了,也学习了很多知识,是时候要想一下怎么找工作了,顺便看看公司的职位我是否能胜任,如果不能胜任,也能提前知道自己还缺少什么,接着继续努力。那就抓取招聘网站上的信息看一看吧。今天抓取的招聘网站有四个,分别是猎聘、智联招聘、看准、百度百聘。目前我的要求是当我输入职位和城市时,将相关的信息存储到MongoDB数据库,作为学习数据分析的基础数据。这里面我最关心的是任职要求,不过现在还没有学习...原创 2018-11-20 19:15:33 · 445 阅读 · 0 评论 -
pyspider抓取伯乐在线python相关所有文章
有点软用的pyspider中文文档(这个翻译的和谷歌翻译差不多,如果没有谷歌翻译插件的可以考虑)英文官方文档(谷歌翻译后完全能看懂,不像python官方的,第三方库的都比较友好)伯乐在线python相关文章了解了requests和aiohttp之后,是时候学习一波框架了,而被吹的最厉害的莫过于scrapy和pyspider了。两个都接触了一下,我发现国人编写的这个pyspider对Windo...原创 2018-11-12 20:29:56 · 1519 阅读 · 0 评论 -
爬虫模拟登陆果壳网
-–很多网站需要登录之后爬虫才能获取到有用的信息,一般我们都直接在浏览器复制cookies给爬虫。有些网页可以直接使用爬虫模拟登陆,验证码可以使用图像识别(不过我还没学,就先使用人工了),这样可以达到批量获取cookies。我看到了一个特别简单,适合刚开始练手的网站果壳网。–要想模拟登陆...原创 2018-11-02 11:50:12 · 1518 阅读 · 2 评论 -
爬取乐视电影评论
自从学了爬虫之后,我就想把能爬的东西都爬下来,太难的现在还不会,于是在网上找一些简单的练习。乐视电影评论算一个比较简单的ajax练习了,随便打开一个电影,看了一个浏览器加载的请求,有点多(这里遇到一个小问题,点XHR选项没有内容,但all里面却又有ajax请求,很奇怪),不知道哪个是评论的,于是清空请求,点了一下第二页,看到前两个就是。将参数复制下来,刷新几遍,只有 _和page 一直在变化,p...原创 2018-11-02 09:14:33 · 2264 阅读 · 0 评论 -
知乎搜索关键字爬取相关图片
代码github地址程序功能:填写搜索关键字,爬虫就会访问知乎搜索页面并处理返回结果,提取标题、url、点赞数、评论数存储到MongoDB数据库中,然后再依次爬取刚才得到的所有url,获取url中所有内容(广告图片不会获取)图片地址。可以选择下载,默认不下载。只保存图片url到txt文件中。爬取知乎时发现,知乎好像对爬虫很宽容,并没有很难的加密参数,也没有ip频繁检测(不过我并没有加多线程或者...原创 2018-11-06 15:09:38 · 1733 阅读 · 0 评论 -
爬取今日头条街拍图的一次教训
本 来只要按照崔大大的步骤一步一步做下去,啥问题没有。但我看完他的操作之后,自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题,然后理所当然的访问其中一个子页面什么都没有想,我就直接看了一下浏览器有没有ajax请求,看了一下ajax(XHR)的内容发现里面有图片地址,就开始分析请求的参数,有三个参数是一直变化的as、cp、_signature。接着在众多的js文件中搜索...原创 2018-11-01 16:30:14 · 859 阅读 · 0 评论 -
asyncio+aiohttp异步免费代理池(已失效)
asyncio+aiohttp异步代理池代理池github地址经历了好几天时间,终于将asyncio初步了解,不过使用起来还是只能照搬硬套。不去亲自尝试做一些事,就不知道自己有多少不懂的知识,更不知道原来自己也能独立完成一些事。相对于上一个版本,有以下改进:所有网站只用正则表达式提取代理对于编写规范的问题做了改进爬取免费代理网站和测试代理时使用的是asyncio和aiohttp,增...原创 2018-10-30 15:49:27 · 5847 阅读 · 0 评论 -
异步HTTP请求库aiohttp客服端
aiohttp官方文档aiohttp GitHub源码代理池的优化需要异步请求,而asyncio还是不能正常使用(百度相关文章太少),就打算先学习一下aiohttp的使用,于是就硬着头皮用谷歌翻译的插件阅读官方文档。aiohttp既可以做客服端也可以实现高并发服务器。这次主要是学习一下怎么做客户端请求。简单的一个请求:import aiohttpimport asyncio as...原创 2018-10-24 14:18:09 · 1250 阅读 · 0 评论 -
免费代理池-初级版本
这是初级代理池的github地址代理这个对于爬虫而言是必要的,很多网站也提供了一些免费的代理,不过其中也只有一部分可用,当我们只是学习性的爬取某些网站,如果需要一定量的代理,就需要在很多免费代理网站中提取有用的代理。我这段时间在学爬虫,理所当然的需要代理,就自己写了一个代理池。因为还在学习的初级阶段,所以代码可能写的不那么规范,请大家将就着看吧。用到的知识:xpath、re、pyque...原创 2018-10-22 21:17:55 · 474 阅读 · 0 评论 -
爬取链家所有房源信息(在售、成交、租房)
环境:Windows10+Anaconda python3.6.5+Spyder目标:抓取链家北京地区所有房源信息。打开链家官网 https://bj.lianjia.com/ 。粗略的浏览了一下,整个网站使用的都是静态网页,通过改变url来实现网页变动。不过网站默认只显示100页的内容,每页30条,不管那里写着多少多少条数据。如果需要抓取所有数据,必须通过某些条件筛选。有地区、价格、朝向...原创 2018-11-24 15:39:47 · 6894 阅读 · 0 评论 -
破解花式反爬之大众点评-上
常规的反爬机制有访问频率限制、cookie限制、验证码、js加密参数等。目前解决不了的js加密是今日头条的_signature参数、京东的s参数(在搜索结果的ajax中,返回的结果根据s参数的不同而不同,目前没有发现规律)、新版12306登陆时的callback参数等而今天的网站的反爬机制是目前我见过的最有水平的,网址:http://www.dianping.com/, 以上的反爬机制它都有,而...原创 2018-11-26 18:55:19 · 4967 阅读 · 8 评论 -
破解花式反爬之大众点评-中
昨天试探性的爬取了大众点评的数字信息,但一般我们获取的数据中,不止是这些数字信息。在基本信息里面,地址也是一个很重要的数据。于是今天尝试一下怎么获取地址。思路和数字是一样的,概括就是,通过css文件里的偏移量找到class属性和svg文件中的汉字的对应关系。唯一的不同在于数字的svg文件只有一行10个数字,而地址中的svg文件包含200多个汉字。地址的class属性大部分是以bi-开头的(部分...原创 2018-11-27 19:40:44 · 2901 阅读 · 10 评论 -
python免费教程发布页
基础:https://pan.baidu.com/s/1ni41dP-0QSpTDA7hH5McXg 提取码:rufb爬虫:https://pan.baidu.com/s/1ZRMctlzfvr-wgjEhpXCZhA 提取码:jffr机构:https://pan.baidu.com/s/1v96MSC_4AnyWVFR5BRej1A 提取码:pepd话不多说,需要的自己保存。...原创 2019-03-19 13:44:55 · 4144 阅读 · 2 评论