1.Spark简介
据统计,2013年全世界产生了大约4.4ZB信息量的数据!而到2020年,预计人来将会产生10倍于2013年的数据量。为了使这些数据更有意义,Apache Hadoop也开始迅速变得流行起来,最终创建了一个Hadoop的生态系统,包括抽象层的Pig、Hive和Mahout,都是利用了map和reduce的简单概念。
然而,即使拥有每天都分析过滤海量数据的能力,MapReduce始终是一个限制相当严格的编程框架。此外,大多数的任务还要求读取、写入磁盘。认识到这些缺点,Matei Zaharia开发了Apache Spark,是他在加州大学伯克利分校的博士论文的一部分。Spark的第一个版本于2012年发布。虽然Spark是基于和MapReduce相同的概念,但其先进的数据处理方法和任务组织方式使得它比Hadoop要快100倍。
Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式、或者机器学习、数据科学。它已成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者。
2.配置前环境
通过VM软件建立虚拟机,系统为CentOS6.5。
3.安装JDK
本次安装的jdk版本为jdk-8u144-linux-x64.tar.gz,高版本更佳!
Step1:下载相应版本JDK点击打开链接
Step2:解压压缩包并配置环境变量
将压缩包解压到/usr/lib/jvm,没有该路径则新建一个:
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/lib/jvm
环境变量配置:
vim /etc/profile
添加如下声明:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export PATH=${JAVA_HOME}/bin:$PATH
source一下,让声明生效:
source ~/.bashrc
Step3:然后我们测试一下是否安装成功:
java -version
如果出现如下提示,则安装成功: