《Spark大数据分析:核心概念、技术及实践》一3.10 总结

 本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.10节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。


3.10 总结

Spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个Spark应用可以比Hadoop应用快上100倍。

Spark不但快速而且它能很方便地使用mapReduce。通过不同语言(包括Java、Python、Scala和R)的易读的API,它可以方便地开发分布式大数据应用。使用Spark开发者的生产力可以有5~10倍的提升。

而且Spark为各种数据处理任务提供了统一的平台。它是一个通用的框架,可以被各种大数据应用使用。对于迭代式数据分析或者使用迭代算法的应用而言,它是一个理想的平台。

Spark的编程模型基于一个叫作RDD的抽象概念。从概念上看,RDD类似于Scala中的集合。它表示的数据就是一组分区的集合,这些分区分布在集群的节点上。它还为处理数据提供一些函数式的方法。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值