自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

转载 四大游戏编程网站,边玩游戏,边学Python,拒绝枯燥快乐编程

来源:AI派(微信号:ai_pai)前言学习编程虽然对有些人来说是件乐事,但是对大多数人来说仍然是一件比较枯燥困难的事情。当然,面临这样困惑的人,并不是只有你一个,所以,这世界上就出现了许多寓教于乐的通过游戏的形式来教你编程的网站。让你快乐学习编程CodinGame这是一个需要编程一个 AI 机器人,然后由它来解决各种面临的问题的有趣游戏。支持各种编程语言。支持各种编程语...

2020-04-19 23:19:08 356

转载 用Python手写十大经典排序算法

作者:hustcc来源:https://github.com/hustcc/JS-Sorting-Algorithm排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、...

2020-04-19 23:15:34 267

转载 程序员必知的 89 个操作系统核心概念

转自:小詹学Python (微信:xiaozhan_Python)原作者:Java建设者,作者cxuan;https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzU2NDg0OTgyMA==&scene=161#wechat_redirect1. 操作系统(Operating System,OS):是管理计算...

2020-04-19 20:07:52 290

原创 Windows 上的 Python文档

https://docs.microsoft.com/zh-cn/windows/python/

2020-04-19 19:59:07 187

转载 redis的基础配置及集群模式

原作者:周电越测越开森(微信)Redis(Remote Dictionary Server ),字面意思远程字典服务,是一种key-value型数据库。相比于Oracle/mysql这种针对于磁盘操作的关系型数据库,redis是针对于内存的操作,所以redis的读写速度很快,是比较适合读写频繁但是数据量不大的场景。同时相比于memcache这种只支持kv简单存储,redis支持st...

2020-04-19 19:58:02 474

转载 Pyppeteer: 比selenium更高效的爬虫界的新神器

来源:十点数据当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。随着互联网的发展,前端技术也在不断变化,数据的加载方式也不再是单纯的服务端渲染了。现在你可以看到很多网站的数据可能都是通过接口的形式传输的,或者即使不是接口那也是一些 JSON 的数据,然后经过 JavaScript 渲染得出来的。这时,如果你还用 requests 来爬取内容,那就不管用了。因为 reque...

2020-04-02 13:39:13 1511 2

转载 xpath获取同级元素

XPath轴(XPath Axes)可定义某个相对于当前节点的节点集:1、child 选取当前节点的所有子元素2、parent 选取当前节点的父节点3、descendant 选取当前节点的所有后代元素(子、孙等)4、ancestor 选取当前节点的所有先辈(父、祖父等)5、descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身6、anc...

2020-03-09 11:16:08 561

转载 Python教你迅速成为蚂蚁森林排行榜第一名

以下文章来源于Crossin的编程教室,作者锅g头https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5MDEyMDk4Mw==&scene=161#wechat_redirect最近在家远程工作,结果作息更混乱了,早上起不来,导致我蚂蚁森林能量天天被偷,严重影响我沙漠造树“大业”。于是我决定用pyth...

2020-02-17 11:06:17 439 2

转载 只会用Selenium爬网页?Appium爬App了解一下

崔庆才进击的Coder2018-04-15Appium是一个跨平台移动端自动化测试工具,可以非常便捷地为iOS和Android平台创建自动化测试用例。它可以模拟App内部的各种操作,如点击、滑动、文本输入等,只要我们手工操作的动作Appium都可以完成。在前面我们了解过Selenium,它是一个网页端的自动化测试工具。Appium实际上继承了Selenium,Appium也是利用WebDr...

2020-01-08 21:05:52 278

转载 跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!

原创崔庆才进击的Coder2018-10-11摘要:我个人开发的深度学习脚手架 ModelZoo 发布了!好多天没有更新原创文章了,国庆前的一段时间确实比较忙,整个九月在参加各种面试,另外还有公司的项目,还有自己的毕设,另外还需要准备参加一些活动和讲座,时间排的很紧,不过还在这些事情基本在国庆来临之际都暂告一段落了,所以国庆我也没打算再干太多事情,就准备在家休养生息。在家一...

2020-01-08 20:46:27 784

转载 跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

原创崔庆才进击的Coder2018-01-20背景用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy。Scrapy 的确是一个非常强大的爬虫框架,爬取效率高,扩展性好,基本上是使用 Python 开发爬虫的必备利器。如果使用 Scrapy 做爬虫,那么在爬取时,我们当然完全可以使用自己的主机来完成...

2020-01-08 18:19:11 168

转载 别再造假数据了,来试试 Faker 这个库吧!

原创崔庆才进击的Coder2019-08-06在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的:test1test01test02测试1测试2测试数据1这是一段测试文本这是一段很长很长很长的测试文本...中枪的请举手。不仅要自己手动敲这些测试数据,还敲的这么假。那有啥办法呢?难不成有什么东西能自动给我造点以假乱真的数据啊?你...

2020-01-08 17:33:47 228

转载 Python 中更优雅的日志记录方案

原创崔庆才进击的Coder2019-10-13在 Python 中,一般情况下我们可能直接用自带的 logging 模块来记录日志,包括我之前的时候也是一样。在使用时我们需要配置一些 Handler、Formatter 来进行一些处理,比如把日志输出到不同的位置,或者设置一个不同的输出格式,或者设置日志分块和备份。但其实个人感觉 logging 用起来其实并不是那么好用,其实主要还是配置...

2020-01-08 12:06:09 144

转载 利用深度学习识别滑动验证码缺口位置

原创:崔庆才进击的Coder2019-11-07做爬虫的同学肯定或多或少会为验证码苦恼过,在最初的时候,大部分验证码都是图形验证码。但是前几年「极验」验证码横空出世,行为验证码变得越来越流行,其中之一的形式便是滑块验证码。滑块验证码是怎样的呢?如图所示,验证码是一张矩形图,图片左侧会出现一个滑块,右侧会出现一个缺口,下侧会出现一个滑轨。左侧的滑块会随着滑轨的拖动而移动,如果能将左侧滑...

2020-01-08 11:04:42 1273

转载 5个顶级异步Python框架

原创:刘志军Python之禅(微信号 VTtalk)Python在3.4引入了 asyncio 库,3.6新增了关键字async和await,此后,异步框架迅速发展了起来,性能上能和Node.js比肩,除非是CPU密集型任务,否则没有理由不适用异步框架。如果你是Web开发者,现在异步Web框架上有了更多选择!1、TornadoTornado 根本不是什么新框架,它最初是由Fr...

2020-01-03 19:14:39 1037

转载 谷歌家的验证码怎么了?搞他!

以下文章来源于进击的Coder,作者崔庆才很久没有做爬虫破解类相关的分享了,之前交流群里有朋友提问谷歌系的reCAPTCHA V2 验证码怎么破,因为工作的原因我是很久之后才看到的,也不知道那位朋友后来成功了没有。那今天就来跟大家分享一下 reCAPTCHA V2 的破解。(小马补充:想加交流群的朋友,进入公众号下方,点击技术交流,有读者群和交流群,点击后都会弹出崔老师的二维...

2020-01-02 11:34:03 543

原创 一款软件居然有10种操作技巧?!--盘它!SecureCRT

halo大家好,今天我们给大家介绍的是一款远程连接神器!SecureCRTSecureCRT,是一款通过telnet,ssh登录远端设备的终端软件。由于其连接设备具有容易上手,稳定性高,功能强大等特点,备受IT爱好者们的青睐。但是,面对SecureCRT密密麻麻的功能菜单,您又熟悉几个?别把SecureCRT用成Putty让我猜猜大家平时都怎么使...

2019-12-05 11:08:41 389

原创 python编码规范

谷歌的python编码规范:https://google.github.io/styleguide/pyguide.html

2019-12-03 11:17:07 87

转载 网络抓包工具

来源:blog.csdn.net/xjpdf10/article/details/84656739前段时间,《亲爱的,热爱的》刚播完,其中剧情中涉及网络攻防大赛,你是不是也喜欢看,羡慕枪神他们从事的职业,飞快的敲击键盘,屏幕黑白代码快速闪过,是不是觉得很厉害!今天,就跟大家推荐几个黑客或者从事网络工程的工作者必用的工具,它就是"网络抓包工具"。1、详细介绍一下网络...

2019-08-08 20:44:59 504

转载 惊为天人,NumPy手写全部主流机器学习模型,代码超3万行

转自:机器之心用 NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30多个模型,这也许能打造「最强」的机器学习基石?NumPy 作为 Python 生态中最受欢迎的科学计算包,很多读者已经非常熟悉它了。它为 Python 提供高效率的多维数组计算,并提供了一系列高等数学函数,我们可以...

2019-08-08 10:48:43 162

转载 19条效率至少提高3倍的MySQL技巧

关于MySQL优化方法,网上有不少资料和方法,但是不少质量参差不齐,有些总结的不够到位,内容冗杂。偶尔看到知乎,发现了这篇文章,总结得很经典,希望对大家今后开发中有帮助 。今天的文章共提到19条常用的MySQL优化方法 。1、EXPLAIN做MySQL优化,我们要善用EXPLAIN查看SQL执行计划。下面来个简单的示例,标注(1、2、3、4、5)我们要重点关注的数据:...

2019-07-30 18:20:08 84

转载 响应码521与国家企业信用信息公示系统js解析

所谓的521是网络在请求是返回的状态码为521,并且反回一段js,js执行后会生成一段cookie,携带cookie再次向服务器发送请求,才可以请求成功,而且ip和cookie绑定,切换ip需要重新获取cookie原理还是比较简单的,难度在于js的执行,如果使用selenium这个问题还是比较容易处理,但是爬虫讲究的是速度和高效,本文深度剖析一下521中返回的js具体执行过程以国家企业信用...

2019-07-19 17:28:19 2794

转载 推荐一个爬虫神器:You-Get,小白也会用

都说Python很厉害,除了生孩子什么都可以做,这不,有一款爬虫神器 you-get 能爬取视频网站和图片网站,你无需写任何代码就能轻松把你喜欢的视频或者图片甚至音频文件扒下来,怎么玩,先看个简单的示例:先爬个腾讯视频,就是上次在朋友圈疯传的程序员搏击产品经理的视频>you-get https://v.qq.com/x/page/m0744tilyc0.htmlSite: ...

2018-08-07 15:16:23 6681

转载 Scrapy学习笔记-使用signals来监控spider的状态

有时候我们需要在spider启动或者结束的时候执行一些特定的操作,比如说记录日志之类的,在scrapy中我们可以使用signals来实现。主要实现代码如下:# -*- coding: utf-8 -*-from scrapy import signalsfrom scrapy.xlib.pydispatch import dispatcherfrom scrapy.linkextractor...

2018-07-05 17:37:49 2879

转载 Python 实现京东自动登录领京豆

今天带大家进行模拟京东登录,并进行签到获取京豆,1000 个京豆 = 10 元,是不是一个发现了一个「发家致富」的好路子?废话不多说,下面开始正题。整体流程如下:1 模拟登录首先我们需要的就是模拟京东登录,只有登录了才能进行签到领京豆等操作。模拟登录其实就是通过 HTTP 的 POST 请求讲用户的登录信息发送给服务器进行认证的过程。1.1 登录数据分析登录过程表面上看着挺简单,我们只要在浏览器里...

2018-07-05 14:48:05 5057

转载 python scrapy+Mongodb爬取蜻蜓FM,酷我及懒人听书

1、初衷:想在网上批量下载点听书、脱口秀之类,资源匮乏,大家可以一试2、技术:wireshark scrapy jsonMonogoDB3、思路:wireshark分析移动APP返回的各种连接分类、列表、下载地址等(json格式)4、思路:scrapy解析json,并生成下载连接5、思路:存储到MongoDB6、难点:wireshark分析各类地址,都是简单的scrapy的基础使用,官网的说明文档...

2018-07-04 19:55:49 1789

转载 python爬取微信公众号并向微信发消息报警监控

1、登陆公众号后台(也可以用selenium模拟登陆获取cookies)登陆后复制粘贴cookies,此时cookies是字符串形式,我们需要转成字典形式2、获取token请求参数3、爬取接口在分享图文这里该接口可输入一些查询字符串,返回公众号文章数据,我们利用的就是该接口接口url和post请求参数4、向接口发送请求我们看到该接口的响应是json数据向接口发送请求5、获取数据6、爬虫监控,出现异...

2018-06-29 10:11:33 1437

转载 马云爸爸的淘宝很难搞定?看我大Python搞定他!所有订单都是我的

现在淘宝换成了,比较难解决这个问题,一下的代码没法用了,仅作学习参考研究之用吧。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果:1、淘宝的密码用了AES加密算法,最终将密码转化为256位,在POST时,传输的是256位长度的密码。2、淘宝在登录时必须要输入验证码,在晋国几次尝试失败后最终获取了验证...

2018-06-28 19:48:41 7606 9

转载 scrapy利用redis实现url去重与增量爬取

引言之前数据采集时有2个需求就是url去重与数据的增量爬去(只能够请求增加的url,不然会增加被爬网站的服务器负荷),最开始的想法是指用redis的set实现url去重,但在后面开发中无意的解决了增量爬去的类容。下面贴上主要代码。具体实现步骤将每次爬去的链接存入redis(pipeline.py)class InsertRedis(object): def __init__(self):...

2018-06-04 20:35:10 4250

转载 Scrapy结合Redis实现增量爬取

Scrapy适合做全量爬取,但是,我们不是一次抓取完就完事了。很多情况,我们需要持续的跟进抓取的站点,增量抓取是最需要的。Scrapy与Redis配合,在写入数据库之前,做唯一性过滤,实现增量爬取。一、官方的去重Pipeline官方文档中有一个去重的过滤器:from scrapy.exceptions import DropItemclass DuplicatesPipeline(object...

2018-06-04 16:09:33 4552 2

转载 爬取西刺网代理ip,并把其存放mysql数据库

需求:  获取西刺网代理ip信息,包括ip地址、端口号、ip类型  西刺网:http://www.xicidaili.com/nn/那,如何解决这个问题?  分析页面结构和url设计得知:    数据都在本页面可以全部获取,没有单独的详情页面    下一页通过更改当前页面最后url后缀进行跳转页面,那我实现URL的拼接不就解决这个问题了那,软件的运行环境?    python3.5    scra...

2018-06-04 14:43:03 380

转载 如何将excel数据导入mongoDB数据库

导入步骤如下:步骤一、将PITags.xlsx 另存为 PITags.csv步骤二、执行 imongoimport命令mongoimport -d JinGuan -c PITags --type csv --headerline --file PITags.csv参数说明:d:数据库名c:collection名type:文件类型,指明是csv文件headline:指明第一行是列名,不需要导入...

2018-05-04 10:12:14 5267

转载 分布式锁看这篇就够了

什么是锁?在单进程的系统中,当存在多个线程可以同时改变某个变量(可变共享变量)时,就需要对变量或代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量。而同步的本质是通过锁来实现的。为了实现多个线程在一个时刻同一个代码块只能有一个线程可执行,那么需要在某个地方做个标记,这个标记必须每个线程都能看到,当标记不存在时可以设置该标记,其余后续线程发现已经有标记了则等待拥有标记的线程结束同步代码块...

2018-04-28 20:26:23 517

转载 Python爬虫抓取代理IP

为了防止被反爬虫策略禁止访问,有的时候需要用到代理IP,代理IP可以到一些提供 代理IP的网站上爬取,也可以自己扫描。(想想这些提供代理IP的网站是怎么得到这些代理IP的,是通过扫描得来的)。下面的代码用到requests和BeautifulSoup,到一个网站上采集IP,为了初学者学习方便,只取前面10页的内容,请大家修改代码。# coding:utf-8 import requests ...

2018-04-28 19:47:08 223

转载 Python爬虫抓取代理IP和验证

下面利用gevent 这个异步并发库,来实现并发验证代理的有效性。# coding:utf-8 from gevent import monkey monkey.patch_all() import urllib2 from gevent.pool import Pool import requests from bs4 import BeautifulSoup clas...

2018-04-28 19:45:46 540

转载 Python操作Mongodb

MongoDB是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。1.创建连接import ...

2018-04-25 20:16:23 445

转载 如何解决高并发

一个小型的网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性 能的要求都很简单。随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是涉及 面非常广,从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求,已经不是原来简单的...

2018-04-24 18:37:39 110

转载 Python爬虫爬取智联招聘(进阶版)

上一篇文章中《Python爬虫抓取智联招聘(基础版)》我们已经抓取了智联招聘一些信息,但是那些对于找工作来说还是不够的,今天我们继续深入的抓取智联招聘信息并分析,本文使用到的第三方库很多,涉及到的内容也很繁杂,请耐心阅读。0、写在前面的话本文是基于基础版上做的修改,如果没有阅读基础版,请移步 Python爬虫抓取智联招聘(基础版)在基础版中,构造url时使用了urllib库的urlencode函数...

2018-04-24 15:25:42 834

转载 Python爬虫抓取智联招聘(基础版)

1、网页分析1.1 分析请求地址以北京海淀区的python工程师为例进行网页分析。打开智联招聘首页,选择北京地区,在搜索框输入"python工程师",点击"搜工作":接下来跳转到搜索结果页面,按"F12"打开开发者工具,然后在"热门地区"栏选择"海淀",我们看一下地址栏由地址栏后半部分searchresult.ashx?jl=北京&kw=python工程师&sm=0&a

2018-04-24 15:01:36 314

转载 项目 用Scrapy写的定向爬虫,旨在通过的discuz的抓取论坛

heartsong/scrapy.cfg文件#由scrapy startproject自动创建##有关[部署]部分的更多信息,请参阅:#https ://scrapyd.readthedocs.org/en/latest/deploy.html[设置]默认 = heartsong.settings[部署]# URL = HTTP://本地主机:6800 /project = h...

2018-04-23 19:16:19 2068

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除