Dpark与Spark的区别

最新推荐文章于 2024-08-07 22:48:51 发布

sanqima

最新推荐文章于 2024-08-07 22:48:51 发布

阅读量5k

点赞数 1

分类专栏：数据库算法文章标签： spark mapreduce python 分布式计算

本文链接：https://blog.csdn.net/sanqima/article/details/51201067

版权

算法同时被 2 个专栏收录

53 篇文章 2 订阅

订阅专栏

数据库

44 篇文章 4 订阅

订阅专栏

　　Dpark 是Spark 的Python克隆版本，是一个用Python 语言实现的分布式计算框架，可以非常方便地实现大规模数据处理和低延时的迭代计算。该计算框架类似于MapReduce，但是比其更灵活，可以用Python 非常方便地进行分布式计算，并且提供了更多的功能，以便更好地进行迭代式计算。Dpark 由国内的豆瓣公司开发实现和负责维护，据豆瓣公司的描述，目前豆瓣公司内部的绝大多数数据分析都使用Dpark 完成，整个项目也正趋于完善。但是Python和Scala这两种语言本身的区别和特性，Dpark与Spark之间存在如下两个主要不同点。
　　(1) 两者之间最重要的区别是线程与进程的区别。在Spark中使用的是一个线程来运行一个任务，而Dpark使用的是进程。原因如下。在Python中，由于GIL(Global Interpreter Lock)的存在，即使在多核机器上使用多个线程，这些线程之间也没有办法真正地实现并发执行。
　　在现在的集群计算中，机器大多是多核的，Master会将一个任务分配到一个计算节点的一个CPU中运行，以充分利用每一个计算节点，但是由于GIL的存在，如果我们使用线程来运行每一个任务，那么会导致同一个计算节点上至多只有一个线程能够被运行，这就大大降低了计算的速度，所以我们不得不采用进程来运行每一个任务。而这就导致了Cache之后，在同一个计算节点的各个任务之间共享内存变得相对复杂，并会带来一些额外的开销。
　　(2) 支持的文件系统不同。Spark使用Hadoop框架中提供的关于文件系统的接口，所以只要Hadoop支持的文件系统和文件格式，Spark都能支持。而Dpark无法直接使用Hadoop的代码和接口，只能使用Posix文件系统，或者某种文件系统参照textFile实现特定的接口。目前，Dpark支持所有能以FUSE或者类似方式访问的文件系统，包括MFS、NFS等类似系统，HDFS有FUSE接口可以使用。Dpark特别针对MFS文件系统实现了一种RDD，它可以绕过FUSE，得到文件的分布信息，以方便地进行I/O本地优化。