博客专栏  >  云计算   >  Husky大数据分析

Husky大数据分析

由实验室基于C++开发的下一代通用性的分布式计算系统Husky,集合了更高效、适用范围广,用户友好等诸多优点。同时,其提供的Python接口可以非常方便的进行各类数据分析处理。这里,我将介绍如何通过PyHusky来解决我们所面对的不同数据分析情景。

关注
32 已关注
17篇博文
  • Husky中文文档-C++ Husky Aggregator 指南

    Aggregator在list_executes过程中聚合数值。一个aggregator就像是整个集群中的一个全局变量。 使用介绍 头文件: #include "lib/dca...

    2017-05-31 19:59
    3977
  • Husky中文文档-C++ Husky 基础

    纲要 一个c++ husky程序的框架如下: void job() { // work ... } int main(int argc, char ** argv) { H...

    2017-05-31 20:01
    3839
  • Husky中文文档-C++ Husky Combiner 指南

    Combiner Combiner 基础 Husky中的combiner在消息发送出去之前进行聚合,从而降低消息量。当使用combiner时,来自同一台机器的拥有相同的key的所有信息将被...

    2017-05-31 20:02
    3184
  • Husky中文文档-C++ Husky Broadcast 和 Request 指南

    Husky提供了broadcast/get_response APIs,用于广播变量给集群中所有的worker。在某些情况下,广播变量比使用send_message更加高效。Husky 还提供了req...

    2017-05-31 20:03
    2792
  • Husky中文文档-C++ Husky 例子

    Husky团队已经使用Husky's C++ API开发了许多分布式的大数据应用,包括基本的MapReduce应用,分布式机器学习和图计算。未来Husky团队将会推出更多应用。 下面给出了Husky目...

    2017-05-31 20:04
    3800
  • 获取全球各大证券交易所的全部股票交易信息

    幻想过这样的两种能力,一是回到过去,二是预见未来。时间逆转回到过去,这更多的是在文艺作品中能够出现的情节。而预见未来,我们正在努力,希望可以更准确地预见更长时间内更多的细节。例如在瞬息万变的股票交易市...

    2017-03-28 20:43
    23296
  • 分布式网络爬虫实例——获取静态数据和动态数据

    前言刚刚介绍完基于PyHusky的分布式爬虫原理及实现,让我们具备了设计分布式网络爬虫方便地调动计算资源来实现高效率的数据获取能力。可以说,有了前面的基础,已经能够解决互联网上的绝大部分网站的数据获取...

    2017-04-11 14:51
    12484
  • Husky数据分析——招聘信息背后的潜规则揭秘

    每天新闻中都可以看到各种各样的排行,和数不尽的好玩的结论。可是有很多时候我们看到某些数据结论时,总会激发我们质疑精神,有时是对于数据取样的片面性的怀疑,有时也有不满足于数据的小众化的遗憾。恰好目前我们...

    2016-12-13 16:43
    35999
  • Husky数据分析——关于最近房子在强力限购下的趋势分析

    在去库存的大背景下,2016年一二线城市的房价经历了一场逆势疯狂上涨的大戏,使得许多城市从10月份开始不得不相继出台了号称史上最严的限购措施。与此同时,美联储加息消息不断使得美元强势,人民币对美元的汇...

    2017-01-12 01:55
    28885
  • Husky数据分析——全球航班信息的研究

    在莱特兄弟制造了第一架可控飞机100年后的今天,坐飞机已然成为了大众化的出行方式。可是我们大多数人对航空领域的相关情况了解得还并不多,例如历史上各国航空器制造公司的兴衰、全球各个机场的繁忙程度,和每家...

    2017-01-13 12:04
    22383
  • PyHusky接口功能及实例介绍

    这里假设已经在集群上成功部署了Husky并且已为PyHusky编译成功所需的后端运用程序Master和Daemon。假如情况不是这样,可以参考PyHusky快速开始。 #首先启动Master: ./M...

    2017-02-23 11:56
    21431
  • PyHusky处理属性图数据生成——由XML文件到完整图形为例

    目前为止,网络上能找到的关于large attributed graph的数据集还非常少。更多的是单纯的关系图,这样就缺少了必要的属性数据。所以我们需要在获得原始数据后,再经过一系列数据计算处理得到我...

    2017-04-03 21:04
    28546
  • 基于PyHusky的分布式爬虫原理及实现

    原理 爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径。分布式爬虫是由访问某些原始网址开始,在获取这些网址的内容后,根据某些规则从中提...

    2017-04-06 17:14
    29195
  • Husky中文文档-部署

    部署 依赖 Husky依赖以下软件包: CMakeZeroMQ (libzmq and cppzmq)Boost一种C++编译器(clang/gcc/icc/MSVC)TCMallocPSSH ...

    2017-02-22 13:04
    15181
  • Husky中文文档-PyHusky 架构

    PyHusky Architecture 本节介绍husky的架构,其中包括前端和后端。 PyHusky 前端 在PyHusky前端,几乎所有的运算符如map,flat_map和reduce 等...

    2017-02-22 13:29
    14913
  • Husky中文文档-PyHusky 运算符

    Pyhusky Operators PyHusky支持三种运算符: Load, Transformation, 和 Action. 通畅情况下,一个PyHusky程序首先使用Load运算符. P...

    2017-02-22 13:16
    14478
  • PyHusky快速开始

    快速开始 构建 本节假设Husky已经被成功部署。若Husky还未被部署于集群之上,请参照Husky中文文档-部署. 编译Daemon后端应用程序. PyHusky需要编译Maser和Da...

    2017-02-22 12:26
    15194
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部