小白进阶之路
文章平均质量分 93
Python成长路
如果连方向都是错误的,那么努力还有什么意义呢
展开
-
wsl2-ubuntu20编译Lineage17(Android10)
举个例子,本来虚拟机磁盘里的文件总共只占了150G,但是外面的磁盘文件.vhdx的大小已经到两百多G了。编译avd能使用的包,是一个zip包。实际我是创建了一个100G的磁盘,因为我可能需要对源码进行修改,有时候哪里改错了就重新复制一份。我们编译系统肯定是先编译x86_64位的,在电脑上跑成功了,在编译手机的。其中kanade是我的用户名,你需要换成你刚才装系统指定的,如果不在最后一行增加的话,可能会被后面的覆盖掉不生效。–vhd 后面跟的就是虚拟磁盘的路径,可以在wsl开机前挂载,也可以在开机后挂载。原创 2023-04-18 14:17:31 · 1965 阅读 · 0 评论 -
使用frida发送微信消息给好友
之前说过怎么用python来发送微信文本消息,原理大概就是构造内存机器码。其实frida也可以做类似操作,构造数据和机器码,然后调用。我就不重复操作了,这里说下另一种方法。想使用frida来发送消息这个想法很早之前就有了,只是搜了很久,一直没有frida在Windows端的操作,教程基本都是针对安卓的。最早是在吾爱看到一篇使用frida来hook接收消息的函数,我还在下面评论了下怎么用frida来发送消息,可惜没有回应,直到最近我看到一个教程(赵庆明老师的。原创 2022-11-21 14:16:46 · 3248 阅读 · 5 评论 -
pve独显直连
然后开机,等个十几分钟,他会自动安装显卡驱动,安装完成之后,就能在任务管理器和设备管理器看到显卡正常工作了,刚进系统没装驱动前,是看不到显卡或者显卡是不正常的。等界面出来按回车(任意键都行)就能进安装界面,后面就和安装系统一样的操作了,进入系统后,先查看IP和开启远程桌面。这里网上的教程都有坑,比如伪装CPU,修改/etc/pve/qemu-server/.conf。在设置域名IP的那一步,域名可以随便填,IP的话填个局域网的IP就可以,如果进去后无法上网。这个iso就是个硬盘驱动,原创 2022-11-19 19:59:01 · 5217 阅读 · 0 评论 -
用aardio写一个旋转验证码标注小工具
最近想训练旋转验证码识别的模型。标注数据是个无意义且费时间的活,而且针对旋转验证码还没有找到一个顺手的标注工具。没有那就自己写一个。在网上看到的文章是生成360个角度的图片,找出其中方向为正的一张。生成360个角度的图片很耗时间,一张图片大概需要个一两分钟,然后再在360个图片中选择一张还挺麻烦的。我找了很久也没看到aardio有什么可以旋转图片的库,正当我打算用aardio调用Python时,突然看到在HTML中旋转图片居然只需要给img标签加一个 其中的0就是旋转的角度,支持负数也就是说旋转图片的功能我原创 2022-07-01 11:46:50 · 1099 阅读 · 1 评论 -
使用nps做内网穿透远程桌面
公网直连首先宽带需要自己办的,然后问办宽带的能不能给公网IP,一般是不能,看地方和运营商,有些是会额外收费。有公网IP后,还需要将光猫改成桥接,用路由器拨号(改光猫需要让办宽带的弄,他们可以远程弄,喜欢折腾的可以搜索光猫牌子型号,看有没有提权的漏洞,普通玩家不建议这么玩)。然后是DHCP服务,这是路由器绑定IP和设备mac的,只要设备mac不变,路由器分配给设备的内网地址也不会变。不过不绑定正常好像也不会变,具体看路由器。ipv6直连这种方法其实很早就有了,我稍微提一下,我也没试过。其实很早之原创 2021-12-24 13:28:41 · 7180 阅读 · 2 评论 -
docker 搭建 jupyter notebook远程环境
前言之前的文章说了服务器怎么搭建jupyter环境:https://blog.csdn.net/Qwertyuiop2016/article/details/85137644但是我发现,这样配置有点麻烦不说,换个机器又要重新来一遍,能不能来个一劳永逸的方法?那肯定是docker了官方镜像官方文档:https://jupyter-docker-stacks.readthedocs.io/en/latest/using/selecting.html选择镜像官方提供了几个镜像:jupyter/ba原创 2021-09-23 18:07:00 · 9774 阅读 · 0 评论 -
charles的一些使用教程
准备工作安装和激活略。汉化略。注意:目前4.5.6能搜到汉化包,之后的版本应该还找不到原创 2021-09-01 17:50:47 · 1186 阅读 · 0 评论 -
一加7Pro(oneplus 7Pro)和一加三安装kali nethunter
准备条件:一台一加7Pro手机谷歌的adb和fastboot工具集, 工具包名称:platform-tools氧OS线刷包(10.3.0版本)twrp 非官方版本magiskDisable_Dm-Verity_ForceEncrypt(一个解密data的包)kali nethunter刷机包除了一加7和一加7Pro,其他手机不建议这样操作,很容易出现问题,主要是需要自己找到适合机器的刷机包。第二个在哪下载我忘了,自行百度吧,应该很多。下载完解压放在某个目录添加环境变量即可使用adb和原创 2021-06-22 15:04:07 · 9650 阅读 · 5 评论 -
验证码预处理
前言今天看到了一个好东西,和大家分享一下,顺便翻译翻译。github源码:https://github.com/Vykstorm/CaptchaDLkaggle地址:https://www.kaggle.com/vykstorm/extracting-words-from-images-with-opencv-part-2具体就是对验证码做预处理,让我觉得是好东西的是验证码的切割部分。验证码样本:这种验证码使用一些简单的技巧是无法切割的,而这个大佬用OpenCV做到了,并且切割效果比较理想。k原创 2020-07-05 10:01:13 · 1083 阅读 · 0 评论 -
selenium如何连接已经打开的浏览器
前言当我们在使用selenium做一些不可描述的事时,因为我们代码的失误导致Python程序报错终止了。如果这个时候去重新运行Python程序,那么你前面已经测试的也要重新来过,所以我们需要使用已经创建的浏览器。这样就可以接着上一步的操作。那么,如何使用上一个已经存在的浏览器呢?我找到了两种解决方案。第一种selenium虽然没有提供连接它自己创建的浏览器实例,但是却可以连接通过–remo...原创 2020-07-04 09:51:38 · 17512 阅读 · 3 评论 -
验证码识别之连体字符切割
根据前面的几篇博客已经知道,如果验证码里的字符之间没有相连,我们使用任意一个机器学习的算法(KNN,SVM等)很容易就可以把他们切割标注识别出来,实际上很多网站的验证码都不可能那么简单,那么我们字符连接如何切割是一个难题。如果这个时候你去问一些人, 你会发现答案大部分都是叫你使用CNN也就是卷积神经网络来识别,这样就可以避免切割字符。但我还不想这么快用CNN(实际上我还没看懂CNN怎么用)。我们...原创 2020-07-04 09:51:04 · 2323 阅读 · 2 评论 -
图片数据集持久化保存(序列化)
前言一般我们训练模型都无法一次就得到满意的结果,需要重复的调参训练。这样就会导致每次都需要重新加载图片然后转化为numpy数组,难道就不能一次加载之后保存成一个文件,然后下次就不用在去加载图片,这样会不会节省一点时间。picklepython自带了一个数据持久化的工具pickle,先试试效果怎么样:import pickle# data为已经加载的numpy数组with open('data.pkl','wb') as f: pickle.dump(data, f)十万张验证码用时125原创 2020-07-03 14:22:45 · 1289 阅读 · 0 评论 -
Windows10安装TensorFlow-gpu
我的系统是Windows10专业版。要安装GPU版的TensorFlow,首先需要安装CUDA,下载地址:https://developer.nvidia.com/cuda-toolkit-archive。我选择的是CUDA Toolkit 9.0 (Sept 2017),选择这个版本是因为搜到的成功装上的基本都是9.0的版本。另外,TensorFlow和CUDA还有cuDNN的对应版本:https://www.tensorflow.org/install/source_windows。(这个后面需要下载c原创 2020-06-30 11:31:38 · 1686 阅读 · 0 评论 -
InfulxDb+grafana监控Windows运行状态
安装官方网站:https://portal.influxdata.com/downloads/dockerdocker pull influxdb 安装influxdb数据库docker pull quay.io/influxdb/chronograf:1.8.4 chronograf可视化工具Windowshttps://dl.influxdata.com/chrono...原创 2020-05-08 16:09:14 · 1225 阅读 · 0 评论 -
splash官方文档解读(翻译)
安装splash是一个类似于selenium的自动化浏览器,不过它与selenium还是有很大区别的:比如splash是异步的,splash暴露httpAPI来自动化操作。安装很简单,需要先安装docker,然后拉取镜像:sudo docker pull scrapinghub/splash启动splash:sudo docker run -it -p 8050:8050 --rm sc...原创 2020-04-27 13:14:24 · 2118 阅读 · 0 评论 -
PC微信机器人成品(2021-01-27更新)
这篇博客说了怎么去hook微信来接收好友消息和发送消息,现在就来实现一下,写了个成品软件软件下载地址:https://www.lanzous.com/ib4g30j界面很简单,如图:主要也就两个功能。1、自动聊天:使用腾讯AI开放平台的智能聊天,需要自己注册拿到appID和appKey2、自动回复:接收到好友消息,自动回复指定内容(由你填写)另外我还开设了httpapi(打开软件就会...原创 2020-04-08 17:22:46 · 4977 阅读 · 2 评论 -
PC微信读取微信好友列表(联系人)
开篇PC微信端读取联系人有三种常规方法:hook相关call来实现拦截联系人数据读取内存中的包含联系人的二叉树结构解密读取微信本地数据库其实前两种方法只是利用微信启动后已经读取联系人放到内存。第一种是拦截过程,第二种是直接获取内存的结果。第一种方法找CALL请看:https://blog.csdn.net/qq_38474570/article/details/95889507...转载 2020-03-23 17:41:45 · 12575 阅读 · 3 评论 -
aardio初探之基本语法
数据类型null: 空值boolean: 布尔值number: 数值string: 字符串table: 类似有序字典,但可以没有键,只有值(此时键即为下标索引)function:函数pointer: 普通指针buffer:缓冲区指针cdata: 内核对象fiber:纤程,微软Windows中的命名,和协程类似class:类查看变量类型: type(obj), 判断两个变...翻译 2020-02-06 07:29:29 · 4775 阅读 · 0 评论 -
验证码识别之二值化
前言二值化顾名思义就是将数变成两种值,一般非0即1。而在验证码处理中,如果直接使用灰度图,那么每个像素的值会在0-255,这样肯定会增加计算时间,而二值化后每个像素的值只是0和1。在前面的简单验证码识别中,我的二值化代码是这样写的:a = (a > 180) * 255,至于这里为什么不乘1而乘255,因为我要显示图片看看效果。如果只是用于算法识别的话,乘1会更好。但是,这里的180也就...原创 2020-01-14 12:02:44 · 1447 阅读 · 0 评论 -
免费远程桌面连接工具
前言因为ipv4已经用尽,所以每家一个公网IP是不可能的。不过即使在前两年,运营商也不会给每个人一个IP,因为绝大部分人压根用不到。所以需要的话还是要自己向运营商要,当然现在要也不一样会给。那么Windows最好用的远程桌面工具是什么呢?teamviewer?向日葵?当然不是,Windows最好用的远程桌面工具是mstsc.exe,这是微软自带的远程工具,功能碾压其他所有工具,你甚至可以在远程...原创 2019-11-29 12:48:35 · 5241 阅读 · 0 评论 -
pyppeteer的基本使用
最近在使用pyppeteer抓淘宝,同事使用JavaScript写调用puppeteer能完美运行。但我改成python就一直报这样一个错误:pyppeteer.errors.NetworkError: Protocol Error (Page.navigate): Session closed. Most likely the page has been closed而代码中造成这样一个错误...原创 2019-06-17 18:12:32 · 16254 阅读 · 4 评论 -
有道翻译小爬虫
最近想开始学习一下js逆向,发现有道翻译的js真的是非常适合没有玩过js逆向的小白练手。破解的话完全没有任何技术含量,只需要你会浏览器断点和Ctrl + F就行。甚至连js代码都看不懂也没关系。我们先输入一个词(翻译),然后看Network里的请求,很明显第一条就是翻译的接口了。因为下面的都是加载的图片链接。当然,我们可以点击请求,查看response或者preview里的内容确认一下有没有我们...原创 2019-07-23 15:31:05 · 628 阅读 · 0 评论 -
关于MySQL拒绝访问的解决方法
当我们在使用一些开源项目的时候总是会遇到一些很奇怪的问题,而其他人又没有遇到。比如我在使用开源博客solo的时候,就遇到了ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)。百度搜索基本都是什么没有权限,密码错误之类的。而我在命令行输入mysql -uroot -p是可以进入MyS...原创 2019-09-18 09:48:15 · 3584 阅读 · 0 评论 -
免费内网穿透工具分析
引言虽然买了一个腾讯云的学生机搭建一些环境,比如博客,jupyter,宝塔等。但毕竟是廉价的学生机,配置还不如几十块的N1(4核2G)。服务器的负载可想而知,截了张图感受一下:cpu的消耗都是来自宝塔的程序,我也不清楚宝塔在运行着什么。所以就想着在我本地的机器搭建这些服务,但奈何家里没有外网IP,因为是租房带的宽带,总不能打电话要一个吧,如果是自己办的宽带完全可以打运营商的电话要一个公网IP...原创 2019-09-23 13:11:56 · 2980 阅读 · 0 评论 -
Windows和Ubuntu安装MongoDB
今天突然想在自己的笔记本和服务器上装MongoDB,遇到一些坑。Windows:安装在c盘以外就报错,无论是data、log、还是mongo程序。只要一直点下一步啥事没有,我表示很无语。Ubuntu : 这个安装就比较坑了,我首先参照的是崔庆才大神的博客,前面一直没什么问题,这里不知道为什么,运行了sudo apt-get install -y mongodb-org之后,输入mongo...原创 2018-11-17 03:45:49 · 1714 阅读 · 0 评论 -
centos服务器搭建代理
买了两个腾讯云的学生机,一直放着没什么用。以前将jupyter配置在服务器上,感觉还不错。但这也太浪费服务器了。于是就像搭建代理供爬虫使用,遇到一些坑,记录一下。第一步(说明一下,这里无法使用vi,因为是内存中的文件)# 确认服务器端ip_forward转发开启echo 1 > /proc/sys/net/ipv4/ip_forwardip_forward需要设定为1sysctl...原创 2019-05-13 22:43:34 · 4796 阅读 · 0 评论 -
manjaro初体验
笔记本使用Windows时间长了以后发现越来越卡了,使用体验贼差。个人觉得我使用电脑的习惯还是可以的,对文件分类很明确,软件也使用一个单独的盘来装,将所有自启动都关了等。但还是顶不住电脑卡的问题,百度找大神发现一堆重装系统、买内存条加固态硬盘等,这说了和没说一样,当然有经济条件的话升级一下配置体验会更好。于是就想着折腾一下Linux(最初我也想过双系统的,但是好像还挺麻烦,反正我就使用笔记本敲敲...原创 2019-05-05 11:29:10 · 1143 阅读 · 0 评论 -
scrapy使用心得(入门教程)
scrapy官网:https://doc.scrapy.org/en/latest/topics/settings.html基本上没有什么教程可以媲美官方文档的,所有的教程不过是在解读官方文档。所以,如果你有耐心的话可以自己看官方文档。使用谷歌浏览器自带的谷歌翻译可以看得懂,不像python官方的文档,机翻出来基本天书。关于各组件的功能,我觉得这个博客写的很好。可以看一下https://www...原创 2019-04-20 13:21:31 · 2587 阅读 · 0 评论 -
数据操作基础库numpy-中
一、创建数组1.arangea = numpy.arange(0, 16)# 生成0-16的数组b = numpy.arange(0, 16).reshape(4, 4)# 生成一个4x4的数组,数据为a的数据a.shape = (2, 2, 2, 2)# 修改a的维度为(2,2,2,2)a.resize = (4, 4)# 修改a的维度为(4,4)2、array和asarr...原创 2018-12-12 16:36:57 · 826 阅读 · 0 评论 -
编程工具篇
最近在学数据分析,没时间去爬网站了,就分享一些工具凑凑数。pycharm下载激活工具 : https://www.lanzous.com/i20tl8f作者(来源):https://www.52pojie.cn/thread-803822-1-1.html数据库图形化(支持MongoDB、MySQL等): https://www.lanzous.com/i2j8c1c作者(来源): htt...原创 2018-12-05 13:01:56 · 1137 阅读 · 0 评论 -
破解花式反爬之大众点评-中
昨天试探性的爬取了大众点评的数字信息,但一般我们获取的数据中,不止是这些数字信息。在基本信息里面,地址也是一个很重要的数据。于是今天尝试一下怎么获取地址。思路和数字是一样的,概括就是,通过css文件里的偏移量找到class属性和svg文件中的汉字的对应关系。唯一的不同在于数字的svg文件只有一行10个数字,而地址中的svg文件包含200多个汉字。地址的class属性大部分是以bi-开头的(部分...原创 2018-11-27 19:40:44 · 2936 阅读 · 10 评论 -
破解花式反爬之大众点评-上
常规的反爬机制有访问频率限制、cookie限制、验证码、js加密参数等。目前解决不了的js加密是今日头条的_signature参数、京东的s参数(在搜索结果的ajax中,返回的结果根据s参数的不同而不同,目前没有发现规律)、新版12306登陆时的callback参数等而今天的网站的反爬机制是目前我见过的最有水平的,网址:http://www.dianping.com/, 以上的反爬机制它都有,而...原创 2018-11-26 18:55:19 · 5068 阅读 · 8 评论 -
爬取链家所有房源信息(在售、成交、租房)
环境:Windows10+Anaconda python3.6.5+Spyder目标:抓取链家北京地区所有房源信息。打开链家官网 https://bj.lianjia.com/ 。粗略的浏览了一下,整个网站使用的都是静态网页,通过改变url来实现网页变动。不过网站默认只显示100页的内容,每页30条,不管那里写着多少多少条数据。如果需要抓取所有数据,必须通过某些条件筛选。有地区、价格、朝向...原创 2018-11-24 15:39:47 · 7091 阅读 · 0 评论 -
Ubuntu服务器长时间运行爬虫程序
————————————————————————————————————————最近想爬一个小型网站,目前已经拿到的没有去重的URL有30万个,我要进一步拿到URL的详细信息,但因为网站服务器抗压有限(前面的30万个url是因为网站有api,我直接拿到的),基于爬虫程序员的素质,我只能每爬一个URL就sleep几秒,这样就需要很长的一段时间了。(还是淘宝、知乎等大网站好,人家基本是你随便爬,在我...原创 2018-11-19 10:27:59 · 1586 阅读 · 2 评论 -
模仿pyspider写招聘网站爬虫
马上要毕业了,也学习了很多知识,是时候要想一下怎么找工作了,顺便看看公司的职位我是否能胜任,如果不能胜任,也能提前知道自己还缺少什么,接着继续努力。那就抓取招聘网站上的信息看一看吧。今天抓取的招聘网站有四个,分别是猎聘、智联招聘、看准、百度百聘。目前我的要求是当我输入职位和城市时,将相关的信息存储到MongoDB数据库,作为学习数据分析的基础数据。这里面我最关心的是任职要求,不过现在还没有学习...原创 2018-11-20 19:15:33 · 478 阅读 · 0 评论 -
pyspider抓取伯乐在线python相关所有文章
有点软用的pyspider中文文档(这个翻译的和谷歌翻译差不多,如果没有谷歌翻译插件的可以考虑)英文官方文档(谷歌翻译后完全能看懂,不像python官方的,第三方库的都比较友好)伯乐在线python相关文章了解了requests和aiohttp之后,是时候学习一波框架了,而被吹的最厉害的莫过于scrapy和pyspider了。两个都接触了一下,我发现国人编写的这个pyspider对Windo...原创 2018-11-12 20:29:56 · 1548 阅读 · 0 评论 -
爬虫模拟登陆果壳网
-–很多网站需要登录之后爬虫才能获取到有用的信息,一般我们都直接在浏览器复制cookies给爬虫。有些网页可以直接使用爬虫模拟登陆,验证码可以使用图像识别(不过我还没学,就先使用人工了),这样可以达到批量获取cookies。我看到了一个特别简单,适合刚开始练手的网站果壳网。–要想模拟登陆...原创 2018-11-02 11:50:12 · 1574 阅读 · 2 评论 -
爬取乐视电影评论
自从学了爬虫之后,我就想把能爬的东西都爬下来,太难的现在还不会,于是在网上找一些简单的练习。乐视电影评论算一个比较简单的ajax练习了,随便打开一个电影,看了一个浏览器加载的请求,有点多(这里遇到一个小问题,点XHR选项没有内容,但all里面却又有ajax请求,很奇怪),不知道哪个是评论的,于是清空请求,点了一下第二页,看到前两个就是。将参数复制下来,刷新几遍,只有 _和page 一直在变化,p...原创 2018-11-02 09:14:33 · 2341 阅读 · 0 评论 -
scrapy抓取知乎所有用户信息
崔庆才老师scrapy爬取知乎用户信息博客我的代码github地址scrapy中文入门文档看完别人操作一遍,肯定要自己动手做一下,否则看的有什么意思呢。我看了一下知乎,发现并没有什么太大的变化,唯一变化的是鼠标移到用户名的时候,显示的信息比老师演示的时候要少,基本和ajax获得的信息一样,所有我爬的时候并没有请求详细信息。说一下我遇到的问题吧,当我爬到一万多条用户消息的时候,响应码全部变...原创 2018-11-09 16:34:10 · 923 阅读 · 0 评论 -
数据可视化Matplotlib-上
import matplotlib.pyplot as mp1、mp.plot(x, y, linestyle=线型, linewidth=线宽, color=颜色, …)功能:将x,y数组对应的值组成坐标上的点依次连接,如果xy都只有一个值,则是一条线段,xy是包含多个值的一维数组,则是很多条线段。线型: - / – / : / -. / o / o- /线宽:大于0的数颜色:十六进制...原创 2018-12-14 11:15:22 · 545 阅读 · 0 评论