第一章 spark数据分析导论

1.1 spark是什么

spark是一个用来实现快速而通用的集群计算的平台。
spark比mapreduce更加高效,适用于各种原先需要多种不同分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。

1.2 一个大一统的软件栈

spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
spark各组件如下图所示。

1.2.1 Spark Core
spark core实现了spark的基本功能,包含任务调度、内存管理、错误恢复、存储系统交互等模块。
1.2.2 Spark SQL
spark sql是spark用来操作结构化数据的程序包。通过spark sql可以使用sql或者apache hive版本的sql来查询数据。spark sql支持多种数据源,比如hive表、JSON等。
1.2.3 Spark Streaming
spark streaming是spark提供的实时数据进行流式计算的组件。比如网页服务器日志,或者网页用户提交的状态更新组件的消息队列,都是数据流。
1.2.4 MLib
spark种还包含了一个提供常见的机器学习功能的程序库,叫做MLib。MLib提供了多种机器学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。
1.2.5 GraphX
GraphX是用来操作图的数据库,可以进行并行图计算,支持针对图的各种操作。
1.2.6 集群管理器
spark支持在各种集群管理器上运行,包括YARN、Mesos,以及spark自带的一个简易调度器,叫做独立调度器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值