大数据技术与应用Spark入门版详细知识讲解

本文介绍了ApacheSpark,一种快速、通用的内存计算引擎,及其特点(易用、通用、随处运行),搭建的Local、Standalone和YARN模式,以及Spark生态中的关键组件如SparkCore、SparkSQL、SparkStreaming等。同时,对比了Spark与MapReduce的差异,重点讲解了Spark的运行原理和在结构化与非结构化数据处理中的应用。
摘要由CSDN通过智能技术生成

一.什么是Spark?

1.Apache Spark™ 是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。归纳总结就是Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

2.Spark具有如下特点:1.快速 2.易用 3.通用 4.随处运行 5.代码简洁

3.Spark搭建的三种模式:(1)Local模式:是指运行在一台计算机上的模式,通常就是用于在本机上练手和测试。

(2)Standalone模式:是指使用Spark原生的资源管理器的集群运行模式,需要使用Master和Worker节点,其中,Master节点负责资源的控制、管理、监控集群中的Worker节点。

(3)YARN模式:是指使用Hadoop的YARN作为资源管理器的集群运行模式。

4.Spark生态圈中重要组件:

(1)Spark Core:提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX,MLlib 都是在Spark Core 的基础上进行扩展的。

(2)Spark SQL:Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。

(3)Spark Streaming:Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

(4)Spark MLlib:MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值