python写spark_豆瓣出品: Python版的Spark--DPark

Python部落(www.freelycode.com)翻译, 禁止转载

项目地址

https://github.com/douban/dpark

项目介绍

DPark是Python版的Spark, 一个类似于MapReduce的, 支持交互式计算的计算框架.

下面是一个数单词的例子(wc.py):import dpark

file = dpark.textFile("/tmp/words.txt")words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()

print wc

这个脚本可以本地运行, 或者不加任何修改地在Mesos集群上运行, 只需要使用不同的命令行参数:$ python wc.py$ python wc.py -m process$ python wc.py -m host[:port]

文件夹examples/里有更多的例子.

更多中文文档在 https://github.com/jackfengji/test_pro/wiki

DPark可以运行在版本大于等于0.9的Mesos上运行.

如果环境变量$MESOS_MASTER被设置了, 你可以通过下面的简写命令来在Mesos上运行DPark.

$ python wc.py -m mesos

$MESOS_MASTER可以是任何Mesos Master主机的地址, 例如

$ export MESOS_MASTER=zk://zk1:2181,zk2:2181,zk3:2181/mesos_master

为了加快洗牌的速度, 你应该把Nginx部署在5055端口, 以便于能够访问到DPARK_WORK_DIR(默认是/tmp/dpark)中的数据,例如:

server { listen 5055; server_name localhost; root /tmp/dpark/;}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值