逼格修炼之道
九茶
这个作者很懒,什么都没留下…
展开
-
傅里叶分析之掐死教程(完整版)
原文链接:http://zhuanlan.zhihu.com/wille/19763358作 者:韩 昊知 乎:Heinrich微 博:@花生油工人知乎专栏:与时间无关的故事谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就更感激不尽了。——更新于20转载 2015-09-21 22:09:44 · 3460 阅读 · 2 评论 -
QQ空间爬虫分享(一天可抓取 400 万条数据)
代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。 爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更原创 2016-03-01 13:30:15 · 58689 阅读 · 38 评论 -
新浪微博分布式爬虫分享
代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。 环境、架构:开发语言:Python2.7开原创 2016-03-16 15:38:48 · 25267 阅读 · 5 评论 -
SublimeText3 安装和配置,以及配置 Python 环境
前言:我以前就用着 SublimeText 2,但是 python 环境一直不能用。昨天看到《如何优雅地使用 Sublime Text》这篇文章,据说 SublimeText 3 能瞬间启动,就忍不住想换掉2版了。我主要在日常查看、编辑文档的时候用一下SublimeText,偶尔作为编辑器敲敲Python代码。 网上安装的教程很多,我主要记录一下我自己安装的和配置的过程,作一个备忘。 文件下载地原创 2015-12-30 14:45:48 · 11010 阅读 · 1 评论 -
10只老鼠与1000瓶药水
题目:1000 瓶无色无味的药水,其中有一瓶毒药,10只小白鼠拿过来做实验。喝了无毒的药水第二天没事儿,喝了有毒的药水后第二天会死亡。如何在一天之内(第二天)找出这瓶有毒的药水?思路:10只小白鼠,喝了药水之后第二天只有存在和挂掉两种情况,我们用计算机二进制里面的0和1来进行模拟,1代表喝、0代表不喝。【 二进制映射喝法:0000000001对应十进制编号第1瓶药水 】原创 2015-04-01 09:27:29 · 8526 阅读 · 1 评论 -
分布式多爬虫系统——架构设计
前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解原创 2017-02-12 23:52:06 · 27662 阅读 · 13 评论