spark快速大数据分析之学习记录(一)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

1.什么是Spark?

Spark是一个用来实现快速而通用的集群计算的平台。其扩展了广泛使用的Mapreduce计算模型,能够在内存中进行计算,提供了基于Python,Java,Scala和SQL的简单易用的API,内含丰富的程序库,并能和其他大数据工具密切配合使用,如Spark可以运行在Hadoop集群上,访问任意的Hadoop数据源。

2.Spark组件介绍

Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统的交互等模块,还包含对弹性分布式数据集(resilient distriuted dataset,简称 RDD)的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合,是Spark的主要编程对象。

Spark SQL:是Spark迎来操作结构化数据的程序包。通过Spark SQL,我们可以使用SQL或者HQL来查询数据。

Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。

MLib:是一个提供常见的机器学习功能的程序库,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。

GraphX:是用来操作图(比如社交网络的朋友关系图)的程序库,可以进行并行的图计算。

集群管理器:Spark支持在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫做独立调度器。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值