Dpark与Spark的区别

  Dpark 是Spark 的Python克隆版本,是一个用Python 语言实现的分布式计算框架,可以非常方便地实现大规模数据处理和低延时的迭代计算。该计算框架类似于MapReduce,但是比其更灵活,可以用Python 非常方便地进行分布式计算,并且提供了更多的功能,以便更好地进行迭代式计算。Dpark 由国内的豆瓣公司开发实现和负责维护,据豆瓣公司的描述,目前豆瓣公司内部的绝大多数数据分析都使用Dpark 完成,整个项目也正趋于完善。但是Python和Scala这两种语言本身的区别和特性,Dpark与Spark之间存在如下两个主要不同点。
  (1) 两者之间最重要的区别是线程与进程的区别。在Spark中使用的是一个线程来运行一个任务,而Dpark使用的是进程。原因如下。在Python中,由于GIL(Global Interpreter Lock)的存在,即使在多核机器上使用多个线程,这些线程之间也没有办法真正地实现并发执行。
  在现在的集群计算中,机器大多是多核的,Master会将一个任务分配到一个计算节点的一个CPU中运行,以充分利用每一个计算节点,但是由于GIL的存在,如果我们使用线程来运行每一个任务,那么会导致同一个计算节点上至多只有一个线程能够被运行,这就大大降低了计算的速度,所以我们不得不采用进程来运行每一个任务。而这就导致了Cache之后,在同一个计算节点的各个任务之间共享内存变得相对复杂,并会带来一些额外的开销。
  (2) 支持的文件系统不同。Spark使用Hadoop框架中提供的关于文件系统的接口,所以只要Hadoop支持的文件系统和文件格式,Spark都能支持。而Dpark无法直接使用Hadoop的代码和接口,只能使用Posix文件系统,或者某种文件系统参照textFile实现特定的接口。目前,Dpark支持所有能以FUSE或者类似方式访问的文件系统,包括MFS、NFS等类似系统,HDFS有FUSE接口可以使用。Dpark特别针对MFS文件系统实现了一种RDD,它可以绕过FUSE,得到文件的分布信息,以方便地进行I/O本地优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sanqima

一键三连,多多益善

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值