Spark基础

最新推荐文章于 2022-08-19 13:38:42 发布

shi_zi_183

最新推荐文章于 2022-08-19 13:38:42 发布

阅读量186

点赞数

分类专栏： Spark学习

本文链接：https://blog.csdn.net/shi_zi_183/article/details/119771695

版权

Spark学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Spark基础

Hadoop与Spark的区别

Hadoop
1、Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架
2、作为Hadoop分布式文件系统，HDFS处于Hadoop生态圈的最下层，存储着所有的数据，支持者Hadoop的所有服务器。它的理论基础源于Google的TheGoogleFileSystem这篇论文，它是GFS的开源实现。
3、MapReduce是一种编程模型，Hadoop根据Goodle的MapReduce论文将其实现，作为Hadoop 的分布式计算模型，是Hadoop的核心。基于这个框架，分布式并行的程序的编写变得异常简单。综合了HDFS的分布式存储和MapReduce的分布式计算、Hadoop在处理海量数据时，性能横向拓展变得非常容易。
4、HBase是对Google的Bigtable的开源实现，但又和Bigtable存在许多不同之处。HBase是一个基于HDFS的分布式数据库，擅长实时地随机读写超大规模数据集。他也是Hadoop非常重要地组件

Spark
1、Spark是一种由Scala语言开发地快速、通用、可拓展地大数据分析引擎
2、Spark Core中提供了Spark最基础与最核心的功能
3、Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apache Hice版本的HQL来查询数据
4、Spark Streaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据
流的API
编程方式
Hadoop的MapReduce计算数据时，要转化为Map和Reduce两个过程，从而难以描述复杂的数据处理过程；而Spark的计算模型不局限于Map和Reduce操作，还提供了多种数据集的操作类型，编程模型比MapReduce更加灵活。
数据存储
Hadoop的MapReduce进行计算时，每次产生的中间结果都存储在本地磁盘中；而Spark在计算时产生的中间结果存储在内存中。
数据处理
Hadoop在每次执行数据处理时，都有从磁盘中加载数据，导致磁盘IO开销较大而Spark在执行数据处理时，要将数据加载到内存中，直接在内存中加载中间结果数据集，减少了磁盘的IO开销。
数据容错
MapReduce计算的中间结果数据，保存在磁盘中，Hadoop底层实现了备份机制，从而保证了数据容错；Spark RDD实现了基于Lineage的容错机制和设置检查点方式的容错机制，弥补数据在内存处理时，因断电导致数据丢失的问题。

Spark的组件

1）Spark Core：Spark核心组件，实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含对弹性分析式数据集的API定义。
2）Spark SQL：用来操作结构化数据的核心组件，通过Spark SQL可直接查询Hive、HBase等多种外部数据源中的数据。Spark SQL的重要特定是能够统一处理关系表和RDD
3）Spark Streaming：Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理，其核心原理就是将流数据分解成一系列短小的批处理作业
4）MLib：Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型，评估，数据导入等额外的功能。
5）GraphX：Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口及丰富的功能和运算符，便于对分布式图处理的需求，能在海量数据上运行复杂的图算法。
6）独立调度器、Yarn、Mesos：集群管理器，负责Spark框架高效的在一个到数千个节点之间进行伸缩计算的资源管理

Spark环境运行环境

Linux系统：CentOS_6.7及以上版本
Hadoop：2.7.4及以上版本
JDK：1.8及以上版本
Spark：2.3.2及以上版本
未完待续

Spark开发环境

Windows系统
Scala：scala2.1.2及以上版本
JDK：1.8及以上版本
Idea：2019版本(随意)

安装Scala

1）下载Scala安装包
在这里插入图片描述
2）解压并配置windows下环境变量

3）进入命令行，输入scala查看是否安装成功

在开发工具IDEA中下载安装Scala插件

1）下载IDEA安装包，打开安装包进行单击Next按钮进行安装，直到出现Welcome to IntelliJ IDEA界面则安装结束
2）访问https://plugins.jetbrains.com/plugin/1347-scala下载Scala插件
在这里插入图片描述
3）单击IDEA主界面右下角的【Configure】→【Plugins】→【Install plugin from disk】→【OK】→【OK】，单击【Restart】按钮，重启IDEA工具，安装结束。

开发第一个Scala程序

创建工程

在这里插入图片描述

创建包和Scala类

在这里插入图片描述

编写代码

package cn.itcast.scala

object HelloWolrd {
    def main(args: Array[String]) {
      println("Hello, world!")
    }
}

运行代码

在这里插入图片描述

shi_zi_183

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark基础

Spark基础Hadoop与Spark的区别Hadoop1、Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架2、作为Hadoop分布式文件系统，HDFS处于Hadoop生态圈的最下层，存储着所有的数据，支持者Hadoop的所有服务器。它的理论基础源于Google的TheGoogleFileSystem这篇论文，它是GFS的开源实现。3、MapReduce是一种编程模型，Hadoop根据Goodle的MapReduce论文将其实现，作为Hadoop
复制链接

扫一扫

专栏目录