SparkLocal模式安装

翻译 2017年01月03日 16:47:57

实验目的

1、了解Spark Local本地模式安装

2、了解Spark Local模式运行原理

实验环境

1、Linux Ubuntu 14.04

2、jdk1.7

3、scala-2.10.4.tgz安装包

4、spark-1.6.0-bin-hadoop2.6.tgz安装包

实验内容

Spark本地模式,是最简单的安装模式。

spark的存储依赖linux本地文件系统,而非Hadoop的HDFS。所以在这里不需要配置Hadoop。

实验步骤

1、Spark的运行依赖jdk以及scala环境。在此已默认安装jdk1.7。

2、上传所需的Spark的安装包spark-1.6.0-bin-hadoop2.6.tgz及scala安装包Scala2.10.4.tgz,到/apps/toolbox目录下。 此处建议使用scala-2.10.4版本。官网中指出,若使用scala2.11,则需要重新编译spark,并且编译时,需要指定scala版本的类型。 关于spark版本,没有严格要求。所以我们使用spark1.6版本。

3、安装Scala。切换目录到/apps/toolbox目录下,将/apps/toolbox目录下scala-2.10.4.tgz,解压缩到/apps目录下。并将解压后的目录名改为/apps/scala

  1. cd /apps/toolbox/  
  1. tar -xzvf /apps/toolbox/scala-2.10.4.tgz -C /apps/  
  1. cd /apps  
  1. mv /apps/scala-2.10.4/ /apps/scala  

使用vim打开用户环境变量~/.bashrc

  1. vim ~/.bashrc  

将scala的环境变量,追加的用户环境变量中。

  1. export SCALA_HOME=/apps/scala  
  2. export PATH=$SCALA_HOME/bin:$PATH  

执行source命令,使系统环境变量生效。

  1. source ~/.bashrc  

4、切换目录到/apps/toolbox目录下,将spark的安装包spark-1.6.0-bin-hadoop2.6.tgz,解压缩到/apps目录下,并将解压后的目录名,重命名为spark

  1. cd /apps/toolbox  
  1. tar -xzvf /apps/toolbox/spark-1.6.0-bin-hadoop2.6.tgz -C /apps/  
  1. cd /apps/  
  1. mv /apps/spark-1.6.0-bin-hadoop2.6/ /apps/spark  

使用vim打开用户环境变量~/.bashrc

  1. vim ~/.bashrc  

将Spark的配置信息追加到用户环境变量中。

  1. #spark  
  2. export SPARK_HOME=/apps/spark  
  3. export PATH=$SPARK_HOME/bin:$PATH  

执行source命令,使用户环境变量生效。

  1. source ~/.bashrc  

5、下面不需要对spark进行任何配置,就可以启动spark-shell进行任务处理了。

切换目录到/apps/spark/bin目录下,使用spark shell客户端,访问服务端,验证安装完的spark是否可用。

执行

  1. spark-shell  

或执行

  1. spark-shell local  

可以启动本地模式

  1. zhangyu@0ed3f46ad512:/apps/spark$ spark-shell  
  2. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).  
  3. log4j:WARN Please initialize the log4j system properly.  
  4. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.  
  5. Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties  
  6. To adjust logging level use sc.setLogLevel("INFO")  
  7. Welcome to  
  8.       ____              __  
  9.      / __/__  ___ _____/ /__  
  10.     _\ \/ _ \/ _ `/ __/  '_/  
  11.    /___/ .__/\_,_/_/ /_/\_\   version 1.6.0  
  12.       /_/  
  13.   
  14. Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_75)  
  15. Type in expressions to have them evaluated.  
  16. Type :help for more information.  
  17. Spark context available as sc.  
  18. 16/12/06 06:20:08 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  19. 16/12/06 06:20:08 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  20. 16/12/06 06:20:27 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0  
  21. 16/12/06 06:20:27 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException  
  22. 16/12/06 06:20:31 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  23. 16/12/06 06:20:31 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  24. 16/12/06 06:20:49 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0  
  25. 16/12/06 06:20:50 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException  
  26. SQL context available as sqlContext.  
  27.   
  28. scala>  

6、执行测试,在spark shell中,使用scala执行个例子

  1. val rdd = sc.textFile("/apps/spark/README.md");  

统计文件的行数

  1. rdd.count();  

可用看到输出为

  1. res3: Long = 4  

表明安装正确。

完整效果为:

  1. scala> val rdd = sc.textFile("/apps/spark/README.md");  
  2. rdd: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:27  
  3. scala> rdd.count  
  4. res0: Long = 95  
  5.  scala>  

Hive 内嵌模式安装指导

Hive内嵌模式说明: 在内嵌模式下(通过hive命令启动),CLI、Driver、metastore以及derby服务都运行在一个RunJar进程内。 1 安装环境介绍 1.1 相关组件版...
  • wiborgite
  • wiborgite
  • 2017年09月18日 19:06
  • 437

Hive-1.2.1远程模式的安装和配置

准备工作 1.搭建好的Hadoop分布式系统 2.apache-hive-1.2.1-bin.tar.gz和mysql-connerctor-java-5.1.43-bin.jar 在my...
  • looc_246437
  • looc_246437
  • 2017年08月17日 12:33
  • 246

Hive 远程模式安装

Hive的远程模式的安装详细介绍。
  • yyywyr
  • yyywyr
  • 2016年05月15日 11:56
  • 1379

1-1、Spark 的local模式安装

软件: jdk1.8 centos6.5 hadoop2.6.0 spark-1.5.2-bin-hadoop2.6.tgz 1、解压,编辑spark-env.sh文件 2、设置主节点I...
  • baolibin528
  • baolibin528
  • 2015年12月13日 21:14
  • 1105

Spark insertIntoJDBC找不到Mysql驱动解决方法

java.sql.SQLException: No suitable driver found for jdbc:mysql://ip:3306/xx  感觉很奇怪,我在启动作业的时候加了Mysql驱...
  • Dr_Guo
  • Dr_Guo
  • 2016年06月27日 19:33
  • 2358

虚拟机安装过程中出现“长模式”不兼容的错误的解决办法

由于开发usb驱动的需要,为了方便调试所以安装虚拟机VMware,在虚拟机下安装WIN7系统,但是安装过程中出现下图的错误 这是由于在使用 Windows7 64 位操作系统时,无法运行...
  • jone990
  • jone990
  • 2017年08月10日 11:17
  • 221

pylearn2安装及测试

 Pylearn2 是建立在Theano之上的一个机器学习库,可以参考:http://deeplearning.net/software/pylearn2/ 早前我已经用《Install ...
  • u012556077
  • u012556077
  • 2015年08月06日 14:54
  • 1087

Ubuntu 14.04 VirtualBox安装XP后无缝模式灰色解决办法

安装完XP系统以后,在VitualBox最上边的
  • xiaoheidouer
  • xiaoheidouer
  • 2014年09月08日 12:46
  • 1462

Hive本地模式安装配置

准备: hive安装包 http://mirrors.hust.edu.cn/apache/ 下载apache-hive-2.1.0-bin.tar.gz mysql RPM压缩包 htt...
  • EaShion1994
  • EaShion1994
  • 2016年07月28日 17:14
  • 792

vmware worstation退出简易安装步骤

最近安装redhat时,发现vmware总是提示进入简易安装,这样自己无法选择语言,并且很多安装包的库文件也不会安装,对于开发人员,有事后边需要安装某些应用或使用某些服务,会遇到依赖包的问题 。但是如...
  • weixin_38786751
  • weixin_38786751
  • 2017年11月20日 21:15
  • 64
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SparkLocal模式安装
举报原因:
原因补充:

(最多只允许输入30个字)