Hadoop 和 Spark 简介

最新推荐文章于 2024-02-22 15:37:56 发布

Wei_Yang_JXNU

最新推荐文章于 2024-02-22 15:37:56 发布

阅读量360

点赞数

分类专栏：大数据

大数据专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、Hadoop是流行的大数据处理平台，它的HDFS分布式文件系统和之上的MapReduce编程模型比较好地解决了大数据分布式存储和处理的问题。RHadoop项目的出现使得用户具备了在R中使用Hadoop处理大数据的能力。

2、Apache顶级开源项目Spark是Hadoop之后备受关注的新一代分布式计算平台。和Hadoop相比，Spark提供了分布式数据集的抽象，编程模型更灵活和高效，能够充分利用内存来提升性能。为了方便数据科学家使用Spark进行数据挖掘，社区持续往Spark中加入吸引数据科学家的各种特性，例如0.7.0版本中加入的python API （PySpark）；1.3版本中加入的DataFrame等。

更多参考：http://mt.sohu.com/20151023/n424011438.shtml

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。