前天上午帮同学安装spark,但是觉得自己电脑内存可能不够,就开始删文件,然后发现自己在18年安装过spark…不愧是我…然后有当时的安装说明,按照说明是可以成功运行的,最后跑了一个python关于spark的简单代码是可以跑通的,至于java,我已经忘完了。一系列spark的下载我都有,需要可以私信或者评论联系,太大了 我就不分享了,下载的网址我也忘记在哪里下载的了。安装过程十分简单,好像并不难(如果我没有安装错误的话)
ctrl c+ctrl v我粘贴过来了
====第一步:安装Java1.8 JDK,配置JAVA_HOME环境变量
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-netbeans-jsp-142931.html
JAVA_HOME = D:\java
path = …;%JAVA_HOME%\bin;
====第二步:安装Scala环境【Spark依赖于scala语言环境】
选择tools目录下的scala-2.10.5.msi【windows下可执行安装】
注意:安装的目录名一定不能带空格,可以再D盘下创建安装根目录D:\scala
安装完成后配置 scala环境变量
SCALA_HOME = D:\scala
path = …;%SCALA_HOME%\bin;
===第三步:配置hadoop环境
选择tools目录下的hadoop-3.0.1.tar.gz,解压,并重命名目录,最终路径形式为
D:\hadoop
解压完成后,配置hadoop系统环境变量
HADOOP_HOME=D:\hadoop
path=…;%HADOOP_HOME%\bin;
hadoop这里需要注意一个地方,需要将tools目录下的winutils.exe文件拷贝到hadoop的bin目录下
如果没有这个否则会出现 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
拷贝后,在D盘新建一个二级目录 D:\tmp\hive
然后cmd切换到D:\hadoop\bin\目录下,并执行
D:\hadoop\bin>winutils.exe chmod 777 D:/tmp/hive == 赋权限
===第四步:安装spark并配置环境变量
选择tools目录下的spark-2.3.0-bin-hadoop2.6.tgz,解压,并重命名目录,最终路径形式为
D:\spark
然后和上面雷同,配置spark环境变量
随后任意目录cmd执行 spark-shell,即可验证spark环境是否搭建成功!
关键几个cmd命令如下:
D:\Spark\bin>set HADOOP_HOME=D:/hadoop
D:\Spark-Shell>spark-shell
2018-05-08 14:36:06 WARN NativeCodeLoader:62 - Unable to load native-hadoop lib
rary for your platform… using builtin-java classes where applicable
Setting default log level to “WARN”.
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLeve
l(newLevel).
Spark context Web UI available at http://9VSNYQQSFL96GK6:4040
Spark context available as ‘sc’ (master = local[*], app id = local-1525761372441
).
Spark session available as ‘spark’.
Welcome to
____ __
/ / ___ / /
\ / _ / _ `/ __/ '/
// .__/_,// //_\ version 2.3.0
//
Using Scala version 2.11.8 (Java HotSpot™ 64-Bit Server VM, Java 1.8.0_91)
Type in expressions to have them evaluated.
Type :help for more information.
scala> sc.parallelize(List(1,2,3)).reduce(+)
res0: Int = 6