spark基础知识汇总

什么是spark?

首先翻译spark官方文档的介绍:

Apache Spark是一个快速的、广泛适用的集群计算系统,它提供高层次的Java、Scala、Python和R的API,以及支持常规执行图的优化引擎。它同样还支持许多高层次的工具,如Spark SQL,可以用来实现SQL和结构化数据处理;MLlib,用来实现机器学习算法;GraphX,用于图处理;Spark Streaming等。

 该介绍的后面都是关于spark的功能描述,其本质主要是第一句,三个关键词:集群计算系统,快速,广泛适用。

 集群计算系统:集群计算顾名思义就是多个计算机集成在一起实现计算任务。其优势我归结为三点:

  1. 并行高效:某种程度上在计算上并行已经被默认为更高效、更快速的一种实现方式。
  2. 可靠:多个计算机往往意味着多份数据存储,在spark中,一份数据会被备份为三份,尽量保证数据不会丢失,且一台服务器的崩溃不会影响到其他服务器。。
  3. 灵活可扩展:计算资源能很方便的按需扩展,同时其内部优化也会提高计算资源的利用效率。

什么是集群计算系统

 


spark的优势?

 

spark的基本构成,

 

spark的其他要点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值