[置顶] R、ggplot2、shiny 汇总

前言:大家应该都知道,ggplot2 和 shiny 都是R语言七大武器之一,虽然它们的能力很流逼,也出来“行走江湖”多年,但是在国内相关的知识分享还是比较少。很多时候遇到问题不得不翻墙搜索,所以尽管自己资历尚浅,但我还是很希望能够将自己的知识点做个总结分享,希望对后来之人有所帮助! 因为最近工作比较忙,没有集中的时间跟精力,所以改变了一下写博客的方式:减小博客篇幅,然后用索引的方式总结、分享一下...
阅读(2867) 评论(2)

[置顶] 生活灵感汇总

前言: 这是从中学就开始养成的一个习惯:不论是迷迷糊糊刚入睡,还是在吃饭、上课、看书,只要出现了新的灵感(或者说是新的观点),就必须立刻记录下关键字眼,日后空闲的时候再利用网络去做更全面的搜索和认识。我一直觉得,大部分人都是聪明的,特别是在日常生活中的某几个瞬间,就像一株大树偶尔会开出一两朵小花,那都是精华!可是这些往往都是瞬间凋逝的,我们甚至都还来不及感受到它们的出现,特别是对我这种思维跳...
阅读(3710) 评论(8)

图形解锁验证码破解(附Python代码)

前言:爬虫开源死得快,新浪微博又改策略了。在去年的这个时候,微博还是没什么限制的。2016年12月我将新浪微博爬虫的代码作了一次更新,并将文章转到了知乎,爬微博的人似乎从那个时候开始多了许多。也许是这个缘故,微博开始对IP设了限制,接着禁了原来免验证码的登录方式,现在将weibo.cn的登录途径也关了,weibo.cn采用m.weibo.cn的登录,登录过程中可能出现图形解锁验证码。这种验证码比较少...
阅读(2741) 评论(7)

爬虫-根据公司名抓取相关员工的linkedin数据

前言:几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代码见Github:LinkedinSpider。 爬虫功能:输入一个公司名称,抓取相关员工的linkedin数据,字段见下方截图。 正文:先来说一下linkedin的限制: 不登录的状态,不能进行搜索,但是可以查看某个用户的linkedin信息(不够全)。 linkedin可以搜用户(最...
阅读(1134) 评论(0)

分布式多爬虫系统——架构设计

前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点: 代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。 易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解...
阅读(3360) 评论(4)

Python爬虫——DNS解析缓存

前言:这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现在放出来 有兴趣的可以看一下。 一般一个域名的DNS解析时间在10~60毫秒之间,这看起来是微不足道,但是对于大型一点的爬虫而言这就不容忽视了。例如我们要爬新浪微博,同个域名下的请求有1千万(这已经不算多的了),那么耗时在10~60万秒之间,一天才86400秒。也就是说单DNS解析这一项就用了好几天时间,此时加上DNS解...
阅读(1276) 评论(2)

scrapy_redis只能使用redis的db0?

背景:众所周知,Redis默认的配置会生成db0~db15共16个db,切分出16个db的一个作用是方便不同项目使用不同的db,防止的数据混淆,也为了方便数据查看。 Python在连接Redis时如果没有指定用哪一个db则默认使用db0。使用过scrapy_redis模块的同学也知道去重和种子队列都在db0上。现在有一个基于scrapy、Redis的分布式爬虫,是从同事那边接手过来的。原先没觉得s...
阅读(1858) 评论(5)

天猫双12爬虫(福利:266万条商品数据免费下载)

天猫双12爬虫代码分享,附266万活动商品数据免费下载。...
阅读(1798) 评论(2)

新浪微博爬虫分享(2016年12月01日更新)

新浪微博爬虫主要抓取微博用户的个人信息、发表的微博、关注和粉丝关系等。此次主要对种子队列和去重策略作了优化,并更新了Cookie池的维护,只需拷贝代码即可实现爬虫分布式扩展,适合大规模抓取。...
阅读(12181) 评论(42)

scrapy_redis种子优化

前言:继《scrapy_redis去重优化(已有7亿条数据),附Demo福利》优化完去重之后,Redis的内存消耗降了许多,然而还不满足。这次对scrapy_redis的种子队列作了一些优化(严格来说并不能用上“优化”这词,其实就是结合自己的项目作了一些改进,对本项目能称作优化,对scrapy_redis未必是个优化)。scrapy_redis默认是将Request对象序列化后(变成一条字符串)存入...
阅读(1655) 评论(0)

QQ空间爬虫分享(2016年11月18日更新)

前言: 上一篇文章:《QQ空间爬虫分享(一天可抓取 400 万条数据)》 Github地址:QQSpider Q群讨论: 很抱歉QQSpider这个爬虫过了这么久才作更新,同时也很感谢各位同学的肯定和支持! 这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。 使用说明: 启动前配置: 需要安装的软...
阅读(5515) 评论(4)

天猫双11爬虫(福利:212万条商品数据免费下载)

2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》背景:2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都暂停了,这种机会难得,岂能不爬? 之前没有爬过天猫/京东这些电商平台,对他们网站的结构和防爬机制也不是...
阅读(3285) 评论(8)

scrapy_redis去重优化(已有7亿条数据),附Demo福利

背景:前些天接手了上一位同事的爬虫,一个全网爬虫,用的是scrapy+redis分布式,任务调度用的scrapy_redis模块。大家应该知道scrapy是默认开启了去重的,用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了,再加上一千多万条requests的种子,redis占用了一百六十多G的内存(服务器,Centos7),总共才一百七十...
阅读(5165) 评论(5)

基于Redis的Bloomfilter去重(附Python代码)

前言:“去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。 当去重数据需要持久化时可以使用redis的set数据结构。 当数据量再大一点时,可以用不同的加密算法先将长字符串压缩成 16/...
阅读(4052) 评论(7)

User-Agent 汇总

前言:近半年没有写博客了,一打开Markdown竟然不知道从何开始。半年时间,要分享的东西比较多,今天第一篇,分享一个我整理后的 User-Agent 集合。 对于爬虫开发者而言,我们经常修改浏览器的 User-Agent 伪装成移动端,从而像手机浏览器一样访问目标网站。爬虫程序带上不同的 User-Agent,可以从m端(甚至是wap端)爬取目标网站。具体方法见《爬虫福利:教你爬wap站》,下面...
阅读(4325) 评论(2)

基于Redis的三种分布式爬虫策略

前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。...
阅读(7065) 评论(1)

新浪微博分布式爬虫分享

代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了) 爬虫功能: 此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。 Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。 环境、架构: 开发语言:Python2.7 开...
阅读(8635) 评论(5)
82条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:332426次
    • 积分:3837
    • 等级:
    • 排名:第7764名
    • 原创:79篇
    • 转载:2篇
    • 译文:1篇
    • 评论:313条
    轻松一刻
    九茶爬过的网站: QQ空间、新浪微博、Facebook、Twitter、Instagram、微信公众号、天猫、唯品会、天眼查、Github、CSDN、博客园、POI数据、资讯数据、域名与IP数据、证券投资数据、中国土地数据、某些政府网站等等。           
    博客专栏
    文章分类
    联系方式