Spark大数据开发学习:Spark基础入门

在诸多的大数据技术框架当中,Spark可以说是占据了非常重要的地位,继Hadoop之后,基于实时数据处理需求的不断上升,Spark开始占据越来越大的市场份额,而Spark,也成为大数据的必学知识点。今天的Spark大数据开发学习分享,我们来讲解Spark基础入门知识。

从行业发展趋势来看,Spark占据着极大的市场份额,是目前全球范围内最为流行、功能最为全面、社区最为活跃的大数据处理技术。
 

Spark大数据培训班


Spark之所以得到重用,当然也是因为Spark具备强大的性能,能够满足企业大数据处理的技术需求。Spark作为一个大一统的技术栈,集批处理、流处理、数据分析、数据探索、机器学习等于一身。

Spark体系架构

Spark体系架构包括如下三个主要组件:数据存储、API、管理框架。

数据存储:

Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。

API:

利用API,应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala,Java和Python三种程序设计语言的API。

资源管理:

Spark既可以部署在一个单独的服务器也可以部署在像Mesos或YARN这样的分布式计算框架之上。

Spark系统组件

1)Spark core:spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。

2)Spark Streaming:流式处理系统,可以对多种数据源(如Kafka、Flume)进行类似Map、Reduce和Join等复杂操作,将流式计算分解成一系列短小的批处理作业。

3)Spark sql:Spark SQL能够统一处理关系表和RDD,使得开发人员可以轻松地使用SQL命令进行外部查询,同时进行更复杂的数据分析。

4)Spark R:是一个R语言包,提供轻量级的方式,在R语言中使用Apache Spark。

5)MLBase:机器学习组件,分为四部分:MLlib、MLI、ML Optimizer和MLRuntime。

6)GraphX用于图和图并行计算。

关于Spark大数据开发学习,Spark基础入门,以上就为大家做了一个简单的介绍了。在大数据开发当中,Spark是重要的技术框架,作为大数据工程师,Spark框架必须掌握。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值