【第22期】观点:IT 行业加班,到底有没有价值?

SparkLocal模式安装

翻译 2017年01月03日 16:47:57

实验目的

1、了解Spark Local本地模式安装

2、了解Spark Local模式运行原理

实验环境

1、Linux Ubuntu 14.04

2、jdk1.7

3、scala-2.10.4.tgz安装包

4、spark-1.6.0-bin-hadoop2.6.tgz安装包

实验内容

Spark本地模式,是最简单的安装模式。

spark的存储依赖linux本地文件系统,而非Hadoop的HDFS。所以在这里不需要配置Hadoop。

实验步骤

1、Spark的运行依赖jdk以及scala环境。在此已默认安装jdk1.7。

2、上传所需的Spark的安装包spark-1.6.0-bin-hadoop2.6.tgz及scala安装包Scala2.10.4.tgz,到/apps/toolbox目录下。 此处建议使用scala-2.10.4版本。官网中指出,若使用scala2.11,则需要重新编译spark,并且编译时,需要指定scala版本的类型。 关于spark版本,没有严格要求。所以我们使用spark1.6版本。

3、安装Scala。切换目录到/apps/toolbox目录下,将/apps/toolbox目录下scala-2.10.4.tgz,解压缩到/apps目录下。并将解压后的目录名改为/apps/scala

  1. cd /apps/toolbox/  
  1. tar -xzvf /apps/toolbox/scala-2.10.4.tgz -C /apps/  
  1. cd /apps  
  1. mv /apps/scala-2.10.4/ /apps/scala  

使用vim打开用户环境变量~/.bashrc

  1. vim ~/.bashrc  

将scala的环境变量,追加的用户环境变量中。

  1. export SCALA_HOME=/apps/scala  
  2. export PATH=$SCALA_HOME/bin:$PATH  

执行source命令,使系统环境变量生效。

  1. source ~/.bashrc  

4、切换目录到/apps/toolbox目录下,将spark的安装包spark-1.6.0-bin-hadoop2.6.tgz,解压缩到/apps目录下,并将解压后的目录名,重命名为spark

  1. cd /apps/toolbox  
  1. tar -xzvf /apps/toolbox/spark-1.6.0-bin-hadoop2.6.tgz -C /apps/  
  1. cd /apps/  
  1. mv /apps/spark-1.6.0-bin-hadoop2.6/ /apps/spark  

使用vim打开用户环境变量~/.bashrc

  1. vim ~/.bashrc  

将Spark的配置信息追加到用户环境变量中。

  1. #spark  
  2. export SPARK_HOME=/apps/spark  
  3. export PATH=$SPARK_HOME/bin:$PATH  

执行source命令,使用户环境变量生效。

  1. source ~/.bashrc  

5、下面不需要对spark进行任何配置,就可以启动spark-shell进行任务处理了。

切换目录到/apps/spark/bin目录下,使用spark shell客户端,访问服务端,验证安装完的spark是否可用。

执行

  1. spark-shell  

或执行

  1. spark-shell local  

可以启动本地模式

  1. zhangyu@0ed3f46ad512:/apps/spark$ spark-shell  
  2. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).  
  3. log4j:WARN Please initialize the log4j system properly.  
  4. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.  
  5. Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties  
  6. To adjust logging level use sc.setLogLevel("INFO")  
  7. Welcome to  
  8.       ____              __  
  9.      / __/__  ___ _____/ /__  
  10.     _\ \/ _ \/ _ `/ __/  '_/  
  11.    /___/ .__/\_,_/_/ /_/\_\   version 1.6.0  
  12.       /_/  
  13.   
  14. Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_75)  
  15. Type in expressions to have them evaluated.  
  16. Type :help for more information.  
  17. Spark context available as sc.  
  18. 16/12/06 06:20:08 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  19. 16/12/06 06:20:08 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  20. 16/12/06 06:20:27 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0  
  21. 16/12/06 06:20:27 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException  
  22. 16/12/06 06:20:31 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  23. 16/12/06 06:20:31 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)  
  24. 16/12/06 06:20:49 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0  
  25. 16/12/06 06:20:50 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException  
  26. SQL context available as sqlContext.  
  27.   
  28. scala>  

6、执行测试,在spark shell中,使用scala执行个例子

  1. val rdd = sc.textFile("/apps/spark/README.md");  

统计文件的行数

  1. rdd.count();  

可用看到输出为

  1. res3: Long = 4  

表明安装正确。

完整效果为:

  1. scala> val rdd = sc.textFile("/apps/spark/README.md");  
  2. rdd: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:27  
  3. scala> rdd.count  
  4. res0: Long = 95  
  5.  scala>  
举报

相关文章推荐

windows下运行spark程序

linux普通用户开发spark程序时,由于无法使用IDEA的图形化操作界面,所以只能大包围jar,用spark-submit提交,不是很方便, spark的local模式可以方便开发者在本地调试代码...

安装Hadoop(2.7.1)_单机模式

一, ubuntu-14.04.3-desktop-amd64(32位的总是报不能识别系统的jvm等错误) 至少1G内存 相关链接 [url]http://www.tuicool.com/articles/bmeUneM[/url] 二, 安装JDK [url]http://fulndon.iteye.com/blog/2276974[/url] 安装ssh和无密码登录 [url]http://blog.csdn.net/hackerwin7/article/details/28109073[/url] 使用shell下

欢迎关注CSDN程序人生公众号

关注程序员生活,汇聚开发轶事。

CentOS 6.5 Openstack Havana 多节点安装(Flat网络模式)

有5种网络模式 Local模式:一般测试时使用,只需一台物理机即可。 GRE模式:隧道数量没有限制,性能有点问题。 Vlan模式:vlan数量有4096的限制 VXlan模式:vlan数量没有限制,性能比GRE好。 Flat模式:管理员创建租户直接到外网,不需要NAT了。 目前的几个项目正好用到了这种Flat模式的网络结构,我觉得小项目中还是比较方便的,Openstack的体系和框架越来越稳定,

Hive 4、Hive 的安装配置(远端MyMql模式)

1.remote一体 这种存储方式需要在远端服务器运行一个mysql服务器,并且需要在Hive服务器启动meta服务。这里用mysql的测试服务器,ip位192.168.1.214,新建hive_r...

hadoop伪集群模式安装

hadoop可以在单个节点上,用伪分布的模式来运行hadoop的各个组件。   当前机器环境<br style="
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)