自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 Python教你迅速成为蚂蚁森林排行榜第一名

以下文章来源于Crossin的编程教室,作者锅g头 https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5MDEyMDk4Mw==&scene=161#wechat_redirect 最近在家远程工作,结果作...

2020-02-17 11:06:17

阅读数 158

评论数 1

转载 只会用Selenium爬网页?Appium爬App了解一下

崔庆才进击的Coder2018-04-15 Appium是一个跨平台移动端自动化测试工具,可以非常便捷地为iOS和Android平台创建自动化测试用例。它可以模拟App内部的各种操作,如点击、滑动、文本输入等,只要我们手工操作的动作Appium都可以完成。在前面我们了解过Selenium,它是一...

2020-01-08 21:05:52

阅读数 21

评论数 0

转载 跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!

原创崔庆才进击的Coder2018-10-11 摘要:我个人开发的深度学习脚手架 ModelZoo 发布了! 好多天没有更新原创文章了,国庆前的一段时间确实比较忙,整个九月在参加各种面试,另外还有公司的项目,还有自己的毕设,另外还需要准备参加一些活动和讲座,时间排的很紧,不过还在这些事情基...

2020-01-08 20:46:27

阅读数 9

评论数 0

转载 跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

原创崔庆才进击的Coder2018-01-20 背景 用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy。Scrapy 的确是一个非常强大的爬虫框架,爬取效率高,扩展性好,基本上是使用 Python 开发爬...

2020-01-08 18:19:11

阅读数 14

评论数 0

转载 别再造假数据了,来试试 Faker 这个库吧!

原创崔庆才进击的Coder2019-08-06 在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的: test1 test01 test02 测试1 测试2 测试数据1 这是一段测试文本 这是一段很长很长很长的测试文本... 中枪的请举手。 不仅要自己手...

2020-01-08 17:33:47

阅读数 7

评论数 0

转载 Python 中更优雅的日志记录方案

原创崔庆才进击的Coder2019-10-13 在 Python 中,一般情况下我们可能直接用自带的 logging 模块来记录日志,包括我之前的时候也是一样。在使用时我们需要配置一些 Handler、Formatter 来进行一些处理,比如把日志输出到不同的位置,或者设置一个不同的输出格式,或...

2020-01-08 12:06:09

阅读数 11

评论数 0

转载 利用深度学习识别滑动验证码缺口位置

原创:崔庆才进击的Coder2019-11-07 做爬虫的同学肯定或多或少会为验证码苦恼过,在最初的时候,大部分验证码都是图形验证码。但是前几年「极验」验证码横空出世,行为验证码变得越来越流行,其中之一的形式便是滑块验证码。 滑块验证码是怎样的呢?如图所示,验证码是一张矩形图,图片左侧会出现一...

2020-01-08 11:04:42

阅读数 21

评论数 0

转载 5个顶级异步Python框架

原创:刘志军Python之禅(微信号 VTtalk) Python在3.4引入了 asyncio 库,3.6新增了关键字async和await,此后,异步框架迅速发展了起来,性能上能和Node.js比肩,除非是CPU密集型任务,否则没有理由不适用异步框架。 如果你是Web开发者,现在异步Web框...

2020-01-03 19:14:39

阅读数 31

评论数 0

转载 谷歌家的验证码怎么了?搞他!

以下文章来源于进击的Coder,作者崔庆才 很久没有做爬虫破解类相关的分享了,之前交流群里有朋友提问谷歌系的reCAPTCHA V2 验证码怎么破,因为工作的原因我是很久之后才看到的,也不知道那位朋友后来成功了没有。那今天就来跟大家分享一下 reCAPTCHA V2 的破解。 (小马补充:...

2020-01-02 11:34:03

阅读数 11

评论数 0

原创 一款软件居然有10种操作技巧?!--盘它!SecureCRT

halo大家好,今天我们给大家介绍的是一款远程连接神器! SecureCRT SecureCRT,是一款通过telnet,ssh登录远端设备的终端软件。 由于其连接设备具有容易上手,稳定性高,功能强大等特点,备受IT爱好者们的青睐。 但是,面对SecureCRT密密麻麻的功能菜单,您又...

2019-12-05 11:08:41

阅读数 18

评论数 0

原创 python编码规范

谷歌的python编码规范: https://google.github.io/styleguide/pyguide.html

2019-12-03 11:17:07

阅读数 7

评论数 0

转载 网络抓包工具

来源:blog.csdn.net/xjpdf10/article/details/84656739 前段时间,《亲爱的,热爱的》刚播完,其中剧情中涉及网络攻防大赛,你是不是也喜欢看,羡慕枪神他们从事的职业,飞快的敲击键盘,屏幕黑白代码快速闪过,是不是觉得很厉害! 今天,就跟大家推荐几个...

2019-08-08 20:44:59

阅读数 22

评论数 0

转载 惊为天人,NumPy手写全部主流机器学习模型,代码超3万行

转自:机器之心 用 NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30多个模型,这也许能打造「最强」的机器学习基石? NumPy 作为 Python 生态中最受欢迎的科学计算包,很多读者已经非常...

2019-08-08 10:48:43

阅读数 16

评论数 0

转载 19条效率至少提高3倍的MySQL技巧

关于MySQL优化方法,网上有不少资料和方法,但是不少质量参差不齐,有些总结的不够到位,内容冗杂。偶尔看到知乎,发现了这篇文章,总结得很经典,希望对大家今后开发中有帮助 。今天的文章共提到19条常用的MySQL优化方法 。 1、EXPLAIN 做MySQL优化,我们要善用EXPLAIN...

2019-07-30 18:20:08

阅读数 17

评论数 0

转载 响应码521与国家企业信用信息公示系统js解析

所谓的521是网络在请求是返回的状态码为521,并且反回一段js,js执行后会生成一段cookie,携带cookie再次向服务器发送请求,才可以请求成功,而且ip和cookie绑定,切换ip需要重新获取cookie 原理还是比较简单的,难度在于js的执行,如果使用selenium这个问题还是比较...

2019-07-19 17:28:19

阅读数 362

评论数 0

转载 推荐一个爬虫神器:You-Get,小白也会用

都说Python很厉害,除了生孩子什么都可以做,这不,有一款爬虫神器 you-get 能爬取视频网站和图片网站,你无需写任何代码就能轻松把你喜欢的视频或者图片甚至音频文件扒下来,怎么玩,先看个简单的示例: 先爬个腾讯视频,就是上次在朋友圈疯传的程序员搏击产品经理的视频 >you...

2018-08-07 15:16:23

阅读数 1978

评论数 0

转载 Scrapy学习笔记-使用signals来监控spider的状态

有时候我们需要在spider启动或者结束的时候执行一些特定的操作,比如说记录日志之类的,在scrapy中我们可以使用signals来实现。主要实现代码如下:# -*- coding: utf-8 -*- from scrapy import signals from scrapy.xlib.pyd...

2018-07-05 17:37:49

阅读数 1626

评论数 0

转载 Python 实现京东自动登录领京豆

今天带大家进行模拟京东登录,并进行签到获取京豆,1000 个京豆 = 10 元,是不是一个发现了一个「发家致富」的好路子?废话不多说,下面开始正题。整体流程如下:1 模拟登录首先我们需要的就是模拟京东登录,只有登录了才能进行签到领京豆等操作。模拟登录其实就是通过 HTTP 的 POST 请求讲用户...

2018-07-05 14:48:05

阅读数 1698

评论数 0

转载 python scrapy+Mongodb爬取蜻蜓FM,酷我及懒人听书

1、初衷:想在网上批量下载点听书、脱口秀之类,资源匮乏,大家可以一试2、技术:wireshark scrapy jsonMonogoDB3、思路:wireshark分析移动APP返回的各种连接分类、列表、下载地址等(json格式)4、思路:scrapy解析json,并生成下载连接5、思路:存储到M...

2018-07-04 19:55:49

阅读数 582

评论数 0

转载 python爬取微信公众号并向微信发消息报警监控

1、登陆公众号后台(也可以用selenium模拟登陆获取cookies)登陆后复制粘贴cookies,此时cookies是字符串形式,我们需要转成字典形式2、获取token请求参数3、爬取接口在分享图文这里该接口可输入一些查询字符串,返回公众号文章数据,我们利用的就是该接口接口url和post请求...

2018-06-29 10:11:33

阅读数 1010

评论数 0

转载 马云爸爸的淘宝很难搞定?看我大Python搞定他!所有订单都是我的

现在淘宝换成了,比较难解决这个问题,一下的代码没法用了,仅作学习参考研究之用吧。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果:1、淘宝的密码用了AES加密算法,最终将密码转化为256位,在POS...

2018-06-28 19:48:41

阅读数 3369

评论数 0

转载 scrapy利用redis实现url去重与增量爬取

引言之前数据采集时有2个需求就是url去重与数据的增量爬去(只能够请求增加的url,不然会增加被爬网站的服务器负荷),最开始的想法是指用redis的set实现url去重,但在后面开发中无意的解决了增量爬去的类容。下面贴上主要代码。具体实现步骤将每次爬去的链接存入redis(pipeline.py)...

2018-06-04 20:35:10

阅读数 3299

评论数 0

转载 Scrapy结合Redis实现增量爬取

Scrapy适合做全量爬取,但是,我们不是一次抓取完就完事了。很多情况,我们需要持续的跟进抓取的站点,增量抓取是最需要的。Scrapy与Redis配合,在写入数据库之前,做唯一性过滤,实现增量爬取。一、官方的去重Pipeline官方文档中有一个去重的过滤器:from scrapy.exceptio...

2018-06-04 16:09:33

阅读数 3149

评论数 1

转载 爬取西刺网代理ip,并把其存放mysql数据库

需求:  获取西刺网代理ip信息,包括ip地址、端口号、ip类型  西刺网:http://www.xicidaili.com/nn/那,如何解决这个问题?  分析页面结构和url设计得知:    数据都在本页面可以全部获取,没有单独的详情页面    下一页通过更改当前页面最后url后缀进行跳转页面...

2018-06-04 14:43:03

阅读数 225

评论数 0

转载 如何将excel数据导入mongoDB数据库

导入步骤如下:步骤一、将PITags.xlsx 另存为 PITags.csv步骤二、执行 imongoimport命令mongoimport -d JinGuan -c PITags --type csv --headerline --file PITags.csv参数说明:d:数据库名c:c...

2018-05-04 10:12:14

阅读数 2410

评论数 0

转载 分布式锁看这篇就够了

什么是锁?在单进程的系统中,当存在多个线程可以同时改变某个变量(可变共享变量)时,就需要对变量或代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量。而同步的本质是通过锁来实现的。为了实现多个线程在一个时刻同一个代码块只能有一个线程可执行,那么需要在某个地方做个标记,这个标记必须每个线程...

2018-04-28 20:26:23

阅读数 283

评论数 0

转载 Python爬虫抓取代理IP

为了防止被反爬虫策略禁止访问,有的时候需要用到代理IP,代理IP可以到一些提供 代理IP的网站上爬取,也可以自己扫描。(想想这些提供代理IP的网站是怎么得到这些代理IP的,是通过扫描得来的)。下面的代码用到requests和BeautifulSoup,到一个网站上采集IP,为了初学者学习方便,只取...

2018-04-28 19:47:08

阅读数 62

评论数 0

转载 Python爬虫抓取代理IP和验证

下面利用gevent 这个异步并发库,来实现并发验证代理的有效性。# coding:utf-8 from gevent import monkey monkey.patch_all() import urllib2 from gevent.pool import Pool imp...

2018-04-28 19:45:46

阅读数 110

评论数 0

转载 Python操作Mongodb

MongoDB是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。...

2018-04-25 20:16:23

阅读数 211

评论数 0

转载 如何解决高并发

一个小型的网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性 能的要求都很简单。随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是涉及 面非常广,从...

2018-04-24 18:37:39

阅读数 49

评论数 0

转载 Python爬虫爬取智联招聘(进阶版)

上一篇文章中《Python爬虫抓取智联招聘(基础版)》我们已经抓取了智联招聘一些信息,但是那些对于找工作来说还是不够的,今天我们继续深入的抓取智联招聘信息并分析,本文使用到的第三方库很多,涉及到的内容也很繁杂,请耐心阅读。0、写在前面的话本文是基于基础版上做的修改,如果没有阅读基础版,请移步 Py...

2018-04-24 15:25:42

阅读数 417

评论数 0

转载 Python爬虫抓取智联招聘(基础版)

1、网页分析1.1 分析请求地址以北京海淀区的python工程师为例进行网页分析。打开智联招聘首页,选择北京地区,在搜索框输入"python工程师",点击"搜工作":接下来跳转到搜索结果页面,按"F12"打开开发者工具,然后在"...

2018-04-24 15:01:36

阅读数 143

评论数 0

转载 项目 用Scrapy写的定向爬虫,旨在通过的discuz的抓取论坛

heartsong/scrapy.cfg文件#由scrapy startproject自动创建 # #有关[部署]部分的更多信息,请参阅: #https ://scrapyd.readthedocs.org/en/latest/deploy.html [设置] 默认 = heartsong.se...

2018-04-23 19:16:19

阅读数 897

评论数 0

转载 js验证函数 验证手机 邮箱/email 邮编 身份证 中文 ip及S有3种方式来获取元素

一.js验证函数 验证手机 邮箱/email 邮编 身份证 中文 ip网址:  http://blog.sina.com.cn/s/blog_4481a3460100jkyk.html邮件验证: function jsmail(mail){return(newRegExp(/^\w+((-\w+...

2018-04-23 18:28:19

阅读数 308

评论数 0

转载 基于Hadoop 的分布式网络爬虫技术学习笔记

一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。We...

2018-04-23 18:24:45

阅读数 516

评论数 0

转载 手势密码 Appium 实现 LockViewPatter 手势密码输入方法之一

问题描述问题的产生是这样滴,俺们公司的app登录时有一步需要输入手势密码,九宫格那种的,看下图:解决目标是需要用appium自动的输入手势密码。搜解决方案于是乎,上网搜现成的经验,有了如下结果:遇到了问题按照图示,九宫格的9个点应该为9个ImageView对象,如法炮制使用UIAutomator撸...

2018-04-23 18:09:30

阅读数 55

评论数 0

转载 新浪微博分布式爬虫分享

SinaSpider/Sina_spider2/scrapy.cfg文件# Automatically created by: scrapy startproject # # For more information about the [deploy] section see: # https:...

2018-04-23 17:54:32

阅读数 239

评论数 0

转载 用Scrapy写的定向爬虫,爬取目标是使用Discuz框架的论坛

heartsong/scrapy.cfg文件# Automatically created by: scrapy startproject # # For more information about the [deploy] section see: # https://scrapyd.read...

2018-04-23 15:48:07

阅读数 445

评论数 0

转载 Windows下使用pip安装python包是报错-UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0

先交待下开发环境:  操作系统:Windows 7  Python版本:2.7.9  Pip版本:6.1.1  其他环境忽略在windows下使用pip下载python包,出现如下错误Collecting xxxxxx Exception: Traceback (most rece...

2018-04-21 23:00:08

阅读数 179

评论数 0

转载 Windows下安装Redis

 首先说一下在Windows下安装Redis,安装包可以在https://github.com/MSOpenTech/redis/releases中找到,可以下载msi安装文件,也可以下载zip的压缩文件。下载zip文件之后解压,解压后是这些文件:里面这个Windows Service Docum...

2018-04-20 18:00:37

阅读数 35

评论数 0

提示
确定要删除当前文章?
取消 删除