Centos下Spark单机版（python）安装配置

最新推荐文章于 2024-10-07 20:57:08 发布

DataScientistGuo

最新推荐文章于 2024-10-07 20:57:08 发布

阅读量2.1k

点赞数

分类专栏：大数据 jupyter notebook配置文章标签： spark python hadoop 安装

本文链接：https://blog.csdn.net/u012582622/article/details/78870167

版权

本文介绍了如何在Centos系统下安装配置Apache Spark单机版，主要步骤包括：Spark简介、环境准备、JDK和Scala的安装、Anaconda的安装、Spark的安装以及启动Spark的shell和pyspark，为Python开发者提供了详细的操作流程。

摘要由CSDN通过智能技术生成

1.Spark简介

据统计，2013年全世界产生了大约4.4ZB信息量的数据！而到2020年，预计人来将会产生10倍于2013年的数据量。为了使这些数据更有意义，Apache Hadoop也开始迅速变得流行起来，最终创建了一个Hadoop的生态系统，包括抽象层的Pig、Hive和Mahout，都是利用了map和reduce的简单概念。

然而，即使拥有每天都分析过滤海量数据的能力，MapReduce始终是一个限制相当严格的编程框架。此外，大多数的任务还要求读取、写入磁盘。认识到这些缺点，Matei Zaharia开发了Apache Spark，是他在加州大学伯克利分校的博士论文的一部分。Spark的第一个版本于2012年发布。虽然Spark是基于和MapReduce相同的概念，但其先进的数据处理方法和任务组织方式使得它比Hadoop要快100倍。

Apache Spark是快速、易于使用的框架，允许你解决各种复杂的数据问题，无论是半结构化、结构化、流式、或者机器学习、数据科学。它已成为大数据方面最大的开源社区之一，拥有来自250多个组织的超过1000个贡献者。

2.配置前环境

通过VM软件建立虚拟机，系统为CentOS6.5。

3.安装JDK

本次安装的jdk版本为jdk-8u144-linux-x64.tar.gz，高版本更佳！

Step1:下载相应版本JDK点击打开链接

Step2:解压压缩包并配置环境变量

将压缩包解压到/usr/lib/jvm，没有该路径则新建一个：

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/lib/jvm

环境变量配置：

vim /etc/profile

添加如下声明：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH 
export PATH=${JAVA_HOME}/bin:$PATH

source一下，让声明生效：