基于Python的分布式计算平台-DPark

来自于:

https://github.com/jackfengji/test_pro/wiki


DPark是一个基于Mesos的集群计算框架(cluster computing framework),是Spark的Python实现版本,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。

DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有限的可以在计算过程中、从不同机器访问的共享变量类型。这个的目标 是为了提供一种类似于global address space programming model的工具,例如OpenMP,但是我们要求共享变量的类型必须是那些很容易在分布式系统当中实现的,当前支持的共享变量类型有只读的数据和支持一 种数据修改方式的累加器(accumulators)。DPark具有的一个很重要的特性:分布式的数据集可以在多个不同的并行循环当中被重复利用。这个 特性将其与其他数据流形式的框架例如Hadoop和Dryad区分开来。

User Guide

下载源代码和安装指导
  1. 如何下载源代码

  2. 如何安装在mesos上并进行必要的配置

使用DPark
  1. 初识DPark

  2. 如何在本机、多线程、mesos上运行DPark程序

  3. 弹性分布式数据集(RDD)

  4. 共享变量

  5. Examples

Developer Guide

1. RDD的原理
2. DPark的任务调度机制
3. 共享变量的实现
4. DPark和Spark的区别


转载于:https://my.oschina.net/u/2306127/blog/626892

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值