Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。本文主要介绍spark环境配置以及基础入门学习。
Spark环境配置
Spark需要java, scala环境的支持,因此环境配置分为三个部分:java, scala, spark
java 安装
Java环境可选择 Oracle 的 JDK,或是 OpenJDK。
sudo apt-get install openjdk-7-jre openjdk-7-jdk
JRE和JDK的区别
JRE(Java Runtime Environment,Java运行环境),是运行 Java 所需的环境。JDK(Java Development Kit,Java软件开发工具包)即包括 JRE,还包括开发 Java 程序所需的工具和类库。
安装好OpenJDK后,需要找到相应的安装路径,这个路径是用于配置 JAVA_HOME 环境变量的。执行如下命令:
dpkg -L openjdk-7-jdk | grep '/bin/javac'
该命令会输出一个路径,除去路径末尾的 “/bin/javac”,剩下的就是正确的路径了。如输出路径为/usr/lib/jvm/java-7-openjdk-amd64/bin/javac,则我们需要的路径为/usr/lib/jvm/java-7-openjdk-amd64。
设置Linux环境变量的方法和区别
首先是设置全局环境变量,对所有用户都会生效:
etc/profile: 此文件为系统的每个用户设置环境信息。当用户登录时,该文件被执行一次,并从 /etc/profile.d 目录的配置文件中搜集shell 的设置。一般用于设置所有用户使用的全局变量。
etc