文章目录
一、Spark 概述
1.了解
1、定义:
Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。
2.诞生:
2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写。
2010年开源;
2013年6月成为Apache孵化项目
2014年2月成为Apache顶级项目。
2.Spark 内置模块及特点
1.spark是基于内存计算的大数据并行计算框架,并且它适合各种各样的分布式平台系统。网上可以查看spark的生态环境。
由生态环境也可以看出spark主要包含了Spark Core、Spark SQL、Spark Streaming、Spark MLlib、集群管理器等框架,具体框架我不介绍了,网上可以查看。
2.spark的特点,为什么有了Hadoop生态了还需要spark吗?答案是肯定的,因为他有如下特点:
速度快:
spark是基于内存运算的,所以他运算效率要比Hadoop快100倍以上,什么概念???基于硬盘也要快上10倍以上,所以???
易用性:
spark支持scala、python、java、R。为此我专门学了scala语言。
通用性:
Spark可以用于批处理、交互式查询(SparkSQL)实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。
兼容性:
Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase等。
二、spark的安装
1.环境配置
安装spark前必须先将Hadoop环境配置完成,可以参考下我的:
1.使用的Ubuntu系统
2.Hadoop:2.7.6版本
3.jdk:1.8版本
4.spark:2.00版本
注意:
提示:Hadoop2.7.?与spark2.3.?是匹配的。
版本一定要对应,反正很多软件之间都有版本对应,当然你吃点苦也好,以后就能记住了。
2.解压及安装
1.spark 有三种模式,自行上网查看。
2.下载spark的安装包: