初始Spark

Spark是于2009年作为一个研究项目在加州大学伯克利分校RAD实验室(AMPLab的前身)诞生。
什么是Spark?
Spark是一个用来实现快速而通用的集群计算平台,其核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

应用场景:
批处理、迭代算法、交互式查询、流处理。spark提供的接口非常丰富。除了提供基于Python、Java、Scala、和SQL、的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用,例如spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。

Spark软件栈:
这里写图片描述

  • Spark Core
    它实现了spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统几乎等模块。还包含了对弹性分布式数据集(RDD)的API定义。

  • Spark SQL
    它是spark用来操作结构化数据的程序包,通过它,我们可以使用SAL或者Apache HIve版本的SQL方言(HQL)来查询数据。

  • Spark Streaming
    它是Spark提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志都是数据流。

  • MLib
    Spark中还包含一个提供常见的机器学习(ML)功能的程序库–MLib,它提供了很多种机器学习的算法,包括分类、回归、聚类、协同过滤等。

  • GraphX
    它是用来操作图的程序库,可以进行并行的图计算。

集群管理器
Spark可以在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫做独立调度器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值