Spark简介及安装注意事项

最新推荐文章于 2022-12-09 11:41:24 发布

weixin_30412013

最新推荐文章于 2022-12-09 11:41:24 发布

阅读量177

点赞数

文章标签：大数据 java scala

原文链接：http://www.cnblogs.com/simon0227/archive/2011/11/14/2249086.html

版权

Spark简介及安装注意事项

Spark是Berkeley AMP实验室研究的最新成果。它是一个基于内存有容错性能的通用的集群计算框架。它的主要目的是用来处理iterative算法（机器学习）和iteractive查询（数据挖掘的一些工具）。

这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。

Spark的具体原理不在这里讲述，有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。

下面主要介绍下安装过程（Linux平台）中需要注意的几个问题：

1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置，具体的设置方法请参见：http://mysuperbaby.iteye.com/blog/935741

2. 如果想用分布式文件系统HDFS（配置HDFS）,那么可能遇到如下问题：

　　2.1 在访问hdfs文件是抛出异常：“Exception in thread "main" java.io.IOException: Call to localhost/127.0.0.1:9000 failed on local exception: java.io.EOFException”

此问题由于客户端（spark）的hadoop版本与服务器端的hadoop版本不一致，此时你可以把服务器端的hadoop-core-xxxx.jar拷贝到spark目录下得lib_managed/jars/org.apache.hadoop/hadoop-core/文件夹下，并把文件命名成该文件夹原来的hadoop包得名字（不改名字得话，重新编译时不会用拷贝过来的jar包，会重新下载一个），然后重新assembly生成spark-core-xxxxx.jar文件。

2.2 如果在2.1操作后仍然出现问题：

　　　　java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration

hadoop .NoClassDefFoundError: org/apache/commons/lang/StringUtils org/apache/commons/lang/StringUtils

此时就是缺少一些依赖包，我们可以从服务器端的hadoop下的lib文件夹中把commons-configuration-1.6.jar 和 commons-lang-2.4.jar拷贝spark-core-xxxxx.jar所在的目录即可。

　　　　然后把这些包加入CLASSPATH即可。

2.3 关于CLASSPATH的设置问题

　　　　经过我的尝试，在系统环境变量CLASSPATH设置没起任何作用。希望有可以的朋友分享一下经验。

　　　　现在我是这样做的，利用scala 语言本身功能设置classpath,即 scala -cp <path>。但是目前似乎只能带一个jar包。于是需要把先前的三个jar包打成一个包。

具体打包可以在windows下利用winrar完成：首先把三个包解压到统一个文件夹下，解压过程中可能会产生一些冲突，不过不要紧，有冲突的都是些MANIFEST.MF, LICENSE, NOTICE等文件。最后把解压出来的内容重新打成一个包即可。注意选择zip格式。

以上是自己安装过程遇到的问题的总结，希望对大家有帮助~~