PyHusky快速开始

最新推荐文章于 2017-04-11 14:51:10 发布

happen_chen

最新推荐文章于 2017-04-11 14:51:10 发布

阅读量1.6w

点赞数 4

分类专栏：文档 PyHusky Husky大数据分析分布式爬虫原理与实现文章标签： Pyhusky

Husky大数据分析同时被 3 个专栏收录

17 篇文章 63 订阅

订阅专栏

PyHusky

12 篇文章 0 订阅

订阅专栏

文档

10 篇文章 0 订阅

订阅专栏

快速开始

构建

本节假设Husky已经被成功部署。若Husky还未被部署于集群之上，请参照Husky中文文档-部署.

编译Daemon后端应用程序.

PyHusky需要编译Maser和Daemon。在构建目录，使用 make Master 编译Master 和 make Daemon 编译Daemon。需确保构建目录已经被cmake正确创建。
启动Master和Daemon

Daemon的启动类似于运行其余Husky应用程序。

首先使用 ./Master conf/myhusky.conf 启动Master。其次，使用 ./Daemon conf/myhusky.conf 启动单机的Daemon，若配置文件是单机环境。使用 ./exec.sh Daemon conf/myhusky.conf 运行一个分布式Daemon，若配置文件是分布式环境。需要确保配置文件的正确性(例如socket文件已被书写正确)。确认Daemo，配置文件，和对应的目录已经被发送到各个机器上。

运行

运行一个python程序!

创建并保存以下代码到一个文件内（比如，wc.py）。

import bindings.frontend as ph
ph.env.pyhusky_start(<master_host>, <master_port>)
a = ["hello", "world", "hello", "husky"]
words = ph.env.parallelize(a)
wc = words.map(lambda x:(x,1)).reduce_by_key(lambda x,y:x+y).collect()
print wc

输入以下命令，python wc.py --host <master_host> --port <master_port>，运行WordCount应用程序。

结果如下：

Connected to Master
<parallelize_py>
<map_py>
<reduce_by_key_py>
<collect_py>
Executing... 0 %
Executing... 33 %
Executing... 67 %
Executing... 100 %
[('world', 1), ('husky', 1), ('hello', 2)]

以上信息显示你的程序里面包含的操作和他们的执行进度。最后，结果将会显示在控制台上。