Centos下Spark单机版(python)安装配置

本文介绍了如何在Centos系统下安装配置Apache Spark单机版,主要步骤包括:Spark简介、环境准备、JDK和Scala的安装、Anaconda的安装、Spark的安装以及启动Spark的shell和pyspark,为Python开发者提供了详细的操作流程。
摘要由CSDN通过智能技术生成

1.Spark简介

据统计,2013年全世界产生了大约4.4ZB信息量的数据!而到2020年,预计人来将会产生10倍于2013年的数据量。为了使这些数据更有意义,Apache Hadoop也开始迅速变得流行起来,最终创建了一个Hadoop的生态系统,包括抽象层的Pig、Hive和Mahout,都是利用了map和reduce的简单概念。

然而,即使拥有每天都分析过滤海量数据的能力,MapReduce始终是一个限制相当严格的编程框架。此外,大多数的任务还要求读取、写入磁盘。认识到这些缺点,Matei Zaharia开发了Apache Spark,是他在加州大学伯克利分校的博士论文的一部分。Spark的第一个版本于2012年发布。虽然Spark是基于和MapReduce相同的概念,但其先进的数据处理方法和任务组织方式使得它比Hadoop要快100倍。

Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式、或者机器学习、数据科学。它已成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者。


2.配置前环境


通过VM软件建立虚拟机,系统为CentOS6.5。

3.安装JDK


本次安装的jdk版本为jdk-8u144-linux-x64.tar.gz,高版本更佳!
Step1:下载相应版本JDK点击打开链接
Step2:解压压缩包并配置环境变量
将压缩包解压到/usr/lib/jvm,没有该路径则新建一个:
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/lib/jvm
环境变量配置:
vim /etc/profile
添加如下声明:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH 
export PATH=${JAVA_HOME}/bin:$PATH 
source一下,让声明生效:
source ~/.bashrc
Step3:然后我们测试一下是否安装成功:
java -version
如果出现如下提示,则安装成功:



4.安装scala


Scala 语言可以运行在Window、Linux、Unix、 Mac OS X等系统上。Scala是基于java之上,大量使用java的类库和变量,必须使用Scala之前必须先安装 Java(>1.5版本)。接下来,我们可以从 Scala 官网地址(点击打开链接)下载 Scala 二进制包,本教程我们将下载 2.10.6版本,如下图所示:

Step1:解压压缩包到指定路径
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值