- 博客(44)
- 收藏
- 关注
原创 反编译--jadx的下载使用与配置
下载与安装git clone https://github.com/skylot/jadx.gitcd jadxgradlew dist找到 jadx-gui.bat文件双击安装即可
2019-08-02 16:44:22 1483
原创 python闭包
python语言中形成闭包的三个条件,缺一不可:1)必须有一个内嵌函数(函数里定义的函数)——这对应函数之间的嵌套;例如下面在函数funx()里面又定义了一个funy()函数2)内嵌函数必须引用一个定义在闭合范围内(外部函数里)的变量——内部函数引用外部变量,在funy()函数中使用了外部函数funx()的变量x3)外部函数必须返回内嵌函数——必须返回那个内部函数,外部函数funx()返回内...
2018-10-12 16:49:08 307
原创 机器学习之决策树
决策树简介决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪。特征选择特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决...
2018-09-27 15:09:05 304
原创 机器学习之线性回归
线性回归因为预测结果与真实值是有一定的误差,如下:如何去求模型当中的W,使得损失值最小?方法有以下两个:最小二乘法之正规方程:最小二乘法之梯度下降:使用案例from sklearn import datasets #导入sklearn中数据集from sklearn.model_selection import train_test_split #对数据进行切分from...
2018-09-23 00:04:08 304
原创 python列表、字典、集合推导式
列表推导式list = [1, 3, 7, 9, -3, "123"]l = [i for i in list] #列表推导式print("打印结果:%s" % l, '\n', "数据类型:%s" % type(l))字典推导式dict = [1, 4, 3, 8, 2, 'oo']d = {key: value for key, value in enumerate(di..
2018-09-14 18:16:00 165
转载 python批处理
目标:按下win+R并输入脚本名称,就能运行Python脚本。或者是部署服务器做定时任务,此处运行的版本是:python3环境下。1.新建一个.py文件,保存在你的文件夹中例如,我的文件名是 hello_ world.py,保存在文件夹 D:\python3_work,脚本内容如下: print(‘hello world!’)2.创建一个.bat文件创建一个新的文本文件,包...
2018-09-13 16:48:33 10172 2
原创 批量执行python程序文件
如果想执行n个文件(不必一个一个点run),可以把要执行的文件放在同一个文件夹里,然后在一个文件里输入以下脚本即可。import oslst = os.listdir(os.getcwd()) # 获取当前目录下所有的文件名for c in lst: if os.path.isfile(c) and c.endswith('.py') and c.find("run")== -...
2018-09-05 16:47:08 5105 3
原创 进程 进程 协程
基本概念1.多任务:就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务。 2. 并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现用多个任务“一起”执行,同一时间段运行,(实际上总有一些任务不在执行,因为切换任务的速度相当快,看上去一起执行而已),例:吃完饭->喝水 喝完水->睡觉 一觉醒来-
2018-08-28 22:32:53 619
原创 关于Connection aborted等问题的解决
错误类型在爬虫中报如下的错误: requests.exceptions.ConnectionError: (‘Connection aborted.’, RemoteDisconnected(‘Remote end closed connection without response’,))解决方法(1)随机切换User-Agent: user_agent_list = ["Mo...
2018-08-22 10:26:46 81843 4
翻译 详解pandas.DataFrame.plot( )画图函数
DataFrame.plot(x=None, y=None, kind=’line’, ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, use_index=True, title=None, grid=None, leg...
2018-08-13 15:14:39 9655
原创 pandas plot输出图表中无法显示中文问题
解决方式一:修改配置文件(1)找到matplotlibrc文件(搜索一下就可以找到了) (2)修改:font.serif和font.sans-serif,我的在205,206行 font.serif: SimHei, Bitstream Vera Serif, New Century Schoolbook, Century Schoolbook L, Utopia, ITC Bookman...
2018-08-13 00:04:53 16423 5
原创 python如何装Scrapy
在window下(或者linux)直接使用pip install scrapy会报很多错误,成功率太低了,所以试试以下步骤。前提你已经装好了python和pip,自己在cmd下输入python或者pip,就知道下载需要的三个包(1)在这个python第三方库里下载三个包:分别是lxml,twisted,scrapy。【按照自己的电脑和Python版本下载相应的包】,太难找了,c...
2018-07-19 15:55:48 288
原创 数据分析
一,排序(1)sort_index参数sort_index(axis=0, level=None, ascending=True, inplace=False, kind=’quicksort’, na_position=’last’, sort_remaining=True, by=None)参数说明axis:0按照行名排序;1按照列名排序 level:默认None,否...
2018-07-18 14:28:35 297
原创 windows系统下Python完整环境的搭建
安装Pycharm(1)下载地址:https://www.jetbrains.com/pycharm/download/#section=windows (2)安装: (3)安装完首次配置 安装python3.x(1)从python官网下载自己需要的python版本,https://www.python.org/downloads/ ...
2018-07-17 18:28:23 1621 1
原创 解决pycharm问题:module 'pip' has no attribute 'main',以及Error: Python packaging tool 'pip' not found
报错类型更新pip之后,升级到10.0.1版本,Pycharm安装package出现报错:module ‘pip’ has no attribute ‘main’,报错如下:Traceback (most recent call last): File “C:\Program Files\JetBrains\PyCharm 2017.1.1\helpers\packaging_too...
2018-07-12 23:11:39 4178 3
翻译 各种状态码
HTTP 状态码 code 描述 详细解释 200 成功 成功 400 错误请求 该请求是无效的,详细的错误信息会说明原因 401 未授权 验证失败,详细的错误信息会说明原因 403 服务器拒绝请求 被拒绝调用,详细的错误信息会说明原因 404 未找到 服务器找不到请求的地址 405 方法禁用 群容量超出上限,禁止调用 429 太多的请求 超出了调用频率限...
2018-07-06 13:27:26 2131
原创 Python 使用requests发送get请求
get请求是常用的请求之一,相对于post请求简单些,对于传参数的get请求有的还是有难度的,和post请求一样,必须知道每个字段的含义,这样拿到的响应才是正确的,也是我们想要的。不带参数的get请求import requests headers = { “User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit...
2018-07-05 21:45:05 32352 1
原创 定时任务总结
提到定时任务调度的时候,相信很多人会想到芹菜celery,要么就写个脚本塞到crontab中(参考我的另外一篇文章)。不过,一个小的定时脚本,要用celery的话太“重”了。所以,我找到了一个轻量级的定时任务调度的库:schedule和Timer。crontabhttps://blog.csdn.net/weixin_40283480/article/details/79855140 #...
2018-06-25 14:46:01 496
转载 Windows 下 MongoDB的安装
参考资料https://blog.csdn.net/Clara_G/article/details/77677990
2018-06-24 23:36:31 111
转载 Windows下安装Redis服务
参考资料https://www.cnblogs.com/jaign/articles/7920588.html
2018-06-24 23:12:12 136
原创 windows下selenium的使用
最近在写起点中文网,需要的内容被渲染了,直接发请求是获取不到的,所以只能使用selenium获取源码,在提取想要的内容(其实不是折磨简单的,有兴趣的研究一下就知道了,后面会写总结的),就顺便写一个总结,selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,比如点击,下拉等,尤其是对JavaScript渲染页面来说很有效果。这篇文章包含了使用selenium操作ChromeDri...
2018-06-20 22:21:06 2195
原创 浏览器响应内容和程序响应内容不一致的原因简析
最近几天在写一个项目,和之前不同的是我想要的内容都在html标签里,所以选择xpath或者bs4来提取相关的内容,在实践的过程中遇到了一些问题,特此记录以便于查阅。现象一:浏览器响应内容和程序响应内容不一致当你在抓包的时候,找到了你想要的内容,并且响应的内容和页面是一致的,但是在写程序的时候,发现跑出来的内容却不一样(注意elements里面的内容和响应不一致的原因是有JS动态加载) (...
2018-06-14 11:09:19 2557
原创 使用Anaconda报错'_NamespacePath' object has no attribute 'sort'的解决方法
错误类型在cmd中使用jupyter notebook时出现错误:AttributeError: ‘_NamespacePath’ object has no attribute ‘sort’解决方法,分二步:关于Anaconda3报错 AttributeError: ‘_NamespacePath’ object has no attribute ‘sort’ ,先参考下面这篇博客...
2018-06-05 09:14:35 7314
原创 10054异常
异常概述一个建立的连接被远程主机强行关闭,若远程主机上的进程异常终止运行(由于内存冲突或硬件故障),或者针对套接字执行了一次强行关闭,便会产生10054错误。也就是说:10054异常是从服务器的角度断开连接的。在爬虫中叫反爬,服务器为了维护自己的安全,对于不正常的浏览网页者做的限制。异常类型(1)ConnecttionResetError:[WinError 10054] 远程主机强迫...
2018-06-01 15:21:40 25248 2
原创 抓包工具简介
抓包工具主要用于网页端较难得抓包和app抓包,最近刚好主要在做app的项目,所以把一些常用的抓包工具罗列出来,记录下来。 每个抓包工具都有自己的优劣,有适应自己的环境。 charles:http,https fiddler:http,https wireshark:tcp,udp,比如传统的cs架构的软件,ERP等Charles学习资料:https://www.jianshu.co...
2018-05-27 22:15:50 984
原创 抓取微信公众号文章
微信公众号: https://mp.weixin.qq.com/前提是注册账户和密码第一步:登录:使用selenium,cookies,或者发post请求(参数中pwd是使用md5 32未加密的)第二部学习资料教学视频 https://www.bilibili.com/video/av11127609/ 教学链接:https://blog.csdn.net/d1240673...
2018-05-14 22:50:44 1435
转载 Git的使用
1.Git简介 Git是目前世界上最先进的分布式版本控制系统 git的使用,主要包括: 本地仓库的命令 远程仓库的命令 项目需求、页面、模型类的设计,及页面的使用 2.安装 sudo apt-get install git 安装完毕以后,可以运行如下命令 git 3.远程仓库 Git是分布式版本控制系统,同一个Git仓库,可以分布到不同的机器上。首先找一台电脑充当服务器的角色...
2018-04-30 09:32:55 77
原创 sublime
Sublime Text是不可不说的编辑器,本文以Sublime Text 3为例讲解一下如何搭建开发环境。下载Sublime Text 3下载地址 #==> http://www.sublimetext.com/3下载自己电脑对应的版本,然后双击执行安装就好了。安装Package Control使用Ctrl+`快捷键或者通过View->Show Conso...
2018-04-24 00:58:29 196
原创 redis
Redis 在Linux 和 在Windows 下的安装是有很大的不同的,和通常的软件安装是一样的操作.一 下载 Redis 安装包 去redis 官网下载reids 安装包, redis 官网默认只提供Linux 的安装包,所以不用担心下载到windows 的安装包.笔者下载的是 redis-4.0.9.tar.gz. 下载的为redis 源码,应该使用源码安装方式安装redis....
2018-04-14 01:06:37 228
原创 contrab定时任务
一,安装:apt-get install cron:服务器环境下默认安装的有二,cron服务:service crond start:启动服务 service crond stop:关闭服务 service crond restart:重启服务 service crond reload:重新载入配置 service crond stauts:查看服务状态三,使用命令:...
2018-04-08 17:30:06 2363
原创 爬虫项目部署
爬虫项目部署(部署到指定的服务器)项目部署大同小异,在服务器上配置好项目需要用到的环境,然后把项目打包上传到服务器上,开启项目就好了。xshell的使用(1)下载xshell,并且安装xftp(主要是传输项目文件的)使用步骤:(1)打开xshell,连接远程服务器。输入:ssh 服务器ip,例如:ssh 192.168.10.236,然后按enter键。默认的,ssh 会尝试用...
2018-04-03 21:00:49 4019
翻译 嵌套函数
Python中一个与众不同的语法就是可以嵌套函数,所谓嵌套,并不像其他语言中的在一个函数中调用另一个函数,而是在定义一个函数的时候,函数体里还能定义另一个函数。 内函数可以访问外函数的作用域,这就是《Python基础教程》P105里“它带着它的环境(和相关的局部变量)”及“由于Python的嵌套作用域,来自外部作用域的这个变量,稍后会被内层函数访问”。但是外部函数不能访问内部函数的作用域。下...
2018-03-30 18:17:09 5307
翻译 反爬虫
一般来说我们会遇到网站反爬虫策略下面几点:限制IP访问频率,超过频率就断开连接。(这种方法解决办法就是,降低爬虫的速度在每个请求前面加上time.sleep;或者不停的更换代理IP,这样就绕过反爬虫机制啦!) 后台对访问进行统计,如果单个userAgent访问超过阈值,予以封锁。(效果出奇的棒!不过误伤也超级大,一般站点不会使用,不过我们也考虑进去 还有针对于cookies的 (这个解决办...
2018-03-12 11:00:59 255
原创 json.*
一、概念理解1、json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串) (1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解,json.dumps()函数是将字典转化为字符串) (2)json.loads()函数是将json格式数据转换为字典(可以这么理解,json.loads()...
2018-03-09 10:33:25 551
原创 dic与str
dic与str的相互转化字典(dict)转为字符串(string)我们可以比较容易的将字典(dict)类型转为字符串(string)类型。 通过遍历dict中的所有元素就可以实现字典到字符串的转换: for key, value in sample_dic.items(): print “\”%s\”:\”%s\...
2018-03-08 10:15:05 424
原创 except
异常1.捕获异常try: 放可能产生异常的代码 except: 处理产生错误的方法2.捕获多个异常:在except后面加一个元组,里面放出现的错误,比如 except (IOError,NameError) as result 。result里面存放异常的的基本信息,可以使用print(result)3.捕获所有异常try:….except E...
2018-03-08 00:06:27 4352
翻译 HTTP代理
0x00 前言 大家对HTTP代理应该都非常熟悉,它在很多方面都有着极为广泛的应用。HTTP代理分为正向代理和反向代理两种,后者一般用于将防火墙后面的服务提供给用户访问或者进行负载均衡,典型的有Nginx、HAProxy等。本文所讨论的是正向代理。HTTP代理最常见的用途是用于网络共享、网络加速和网络限制突破等。此外,HTTP代理也常用于Web应用调试、Android/IOS APP 中所调...
2018-02-09 09:25:08 407
原创 正则使用小结
re.match() ——————->从头开始匹配 re.search() ——————->从任意位置开始匹配 re.findall() ——————->匹配所有实例一:获取验证码 str = “MSG&156028&13059708774&【春秋旅游】尊敬的春秋旅游用户,您正在春秋旅游网预订<机票>, 验...
2018-02-08 14:47:07 127
翻译 Selenium使用以及报错处理
参考:https://ask.hellobi.com/blog/zhiji/10292在模拟登录时,常常使用GE和POST携带参数,发送请求,但是遇到参数加密,有两种解决办法,第一个就是找加密的JS,这种方法成功率比较小,需要耐心寻找,第二种就是使用selenium,下面是selenium使用的常用方法和函数,当提示无法定位到元素时,需要睡眠几秒。新建实例driver = webdriver.Ch...
2018-02-08 11:51:09 1684
翻译 python 函数、模块、包及import导入方法
函数将一组代码组织到一起,实现某种功能模块模块就好比工具包,里面的具体工具就好比函数,需要使用里面的函数,就需要导入这个模块。为实现某种逻辑将相关连的函数写在同一个文件里,使逻辑更清楚,这就是一个模块在python中文件以.py 结尾,那这个.py文件就可以称之为模块包为了方便管理模块,python 中引入了包的概念包是由关联的多个模块组成的目录,在每一个包下而都有一个__init__.py文件,...
2018-02-05 10:30:40 13202
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人