博客专栏  >  综合   >  分布式爬虫原理与实现

分布式爬虫原理与实现

爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则可大大加快抓取数据效率。这里使用了实验室高效简洁的PyHusky来设计分布式框架,不仅可以爬取常见的静态类网站,同时由于加入了selenium和Phantomjs,也可实现分布式获取动态渲染生成的网页内容。

关注
317 已关注
7篇博文
  • Husky中文文档-PyHusky 架构

    PyHusky Architecture 本节介绍husky的架构,其中包括前端和后端。 PyHusky 前端 在PyHusky前端,几乎所有的运算符如map,flat_map和reduce 等...

    2017-02-22 13:29
    15887
  • PyHusky快速开始

    快速开始 构建 本节假设Husky已经被成功部署。若Husky还未被部署于集群之上,请参照Husky中文文档-部署. 编译Daemon后端应用程序. PyHusky需要编译Maser和Da...

    2017-02-22 12:26
    15974
  • PyHusky接口功能及实例介绍

    这里假设已经在集群上成功部署了Husky并且已为PyHusky编译成功所需的后端运用程序Master和Daemon。假如情况不是这样,可以参考PyHusky快速开始。 #首先启动Master: ./M...

    2017-02-23 11:56
    22052
  • Python分布式爬虫前菜(1):关于静态动态网页内容获取的N种方法

    爬虫是快速获取我们需要的数据的一个有效途径,而第一步便是要请求远方服务器为我们返回对应的网页信息。我们知道,正常情况下在浏览器上我们只要输入正确的统一资源定位器url,即网页地址便可轻松打开我们想要看...

    2017-03-02 23:47
    16483
  • Python分布式爬虫前菜(2):关于提取网页源码中特定信息的技巧

    前面介绍了不同方法来获取静态和动态各类网页源码,可是我们知道网页源码是夹杂着文字和代码的让人非常眼花缭乱的信息。如何从中提取出有用的信息是一次有意义的爬虫过程中不可避免的问题。这里我们需要快速简洁的工...

    2017-03-06 16:07
    14378
  • 基于PyHusky的分布式爬虫原理及实现

    原理 爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径。分布式爬虫是由访问某些原始网址开始,在获取这些网址的内容后,根据某些规则从中提...

    2017-04-06 17:14
    30352
  • 分布式网络爬虫实例——获取静态数据和动态数据

    前言刚刚介绍完基于PyHusky的分布式爬虫原理及实现,让我们具备了设计分布式网络爬虫方便地调动计算资源来实现高效率的数据获取能力。可以说,有了前面的基础,已经能够解决互联网上的绝大部分网站的数据获取...

    2017-04-11 14:51
    13990
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部