1.准备工作:
(1)安装JVM
(2)安装Scala
(3)安装Python或者IPython
2.官网下载Spark最新版并解压
登陆官网
http://spark.apache.org/downloads.html
选择包类型为"Pre-built for Hadoop 2.4 and later"并下载对应的tarball文件spark-1.3.0-bin-hadoop2.4.tgz
解压下载的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目录
复制代码
复制代码
复制代码
复制代码
由上易见, Spark版本是1.3.0, Hadoop版本是2.4
3.利用Spark自带的Python shell
使用PySpark shell, 在Spark解压的源码路径下,运行
bin/pyspark
在提示符下,依次输入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()
按Ctrl-D退出shell环境
4.修改打印日志的级别
经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在
conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中
下面的行
log4j.rootCategory=INFO, console
改为
log4j.rootCategory=WARN, console
然后重新打开shell,发现调试信息少了很多
5.使用IPython或者IPython Notebook
在命令行, 我们可以使用下面的命令来开启IPython
IPYTHON=1 ./bin/pyspark
使用下面的命令来开启IPython Notebook
IPYTHON_OPTS="notebook" ./bin/pyspark
这会在默认浏览器中打开如下页面
点击上面的"New Notebook"打开一个新的页面标签, 在其中输入如下命令行,并按播放按钮来执行结果
按Ctrl-D退出shell环境
6.使用Scala shell测试line count小程序
打开Scala版本的shell,运行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()
按Ctrl-D退出shell环境
7.测试Spark性能
进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下内容
export SCALA_HOME=/usr/local/spark/scala (这个为scala的安装后的根目录 )
启动主服务器节点
sbin/start-master.sh
启动从服务器节点
sbin/stop-master.sh
sbin/stop-slaves.sh
浏览master UI
http://127.0.0.1:8080/
http://127.0.0.1:8081/
运行样例
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077
(1)安装JVM
(2)安装Scala
(3)安装Python或者IPython
2.官网下载Spark最新版并解压
登陆官网
http://spark.apache.org/downloads.html
选择包类型为"Pre-built for Hadoop 2.4 and later"并下载对应的tarball文件spark-1.3.0-bin-hadoop2.4.tgz
![](https://i-blog.csdnimg.cn/blog_migrate/fdd76aaab57a5d7e416162867f307bb4.png)
解压下载的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目录
- cp -f spark-1.3.0-bin-hadoop2.4.tgz ~/program
- tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
- cd spark-1.3.0-bin-hadoop2.4
- ls
![](https://i-blog.csdnimg.cn/blog_migrate/f62053f387e1856929be8d9ea069bdb5.png)
由上易见, Spark版本是1.3.0, Hadoop版本是2.4
3.利用Spark自带的Python shell
使用PySpark shell, 在Spark解压的源码路径下,运行
bin/pyspark
在提示符下,依次输入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()
![](https://i-blog.csdnimg.cn/blog_migrate/960060dd0d06380f54a6d49c9a841619.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a23590a30d10c7f243d8832454aec617.png)
按Ctrl-D退出shell环境
4.修改打印日志的级别
经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在
conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中
下面的行
log4j.rootCategory=INFO, console
改为
log4j.rootCategory=WARN, console
![](https://i-blog.csdnimg.cn/blog_migrate/a77e9bd5b2bd304f4453a38c64d56833.png)
然后重新打开shell,发现调试信息少了很多
5.使用IPython或者IPython Notebook
在命令行, 我们可以使用下面的命令来开启IPython
IPYTHON=1 ./bin/pyspark
![](https://i-blog.csdnimg.cn/blog_migrate/00e5f9e878c0b29e11fb456d532e3e22.png)
使用下面的命令来开启IPython Notebook
IPYTHON_OPTS="notebook" ./bin/pyspark
![](https://i-blog.csdnimg.cn/blog_migrate/bef06a7dcbb29c1df6544679dc42d272.png)
这会在默认浏览器中打开如下页面
![](https://i-blog.csdnimg.cn/blog_migrate/af3dd3e2a08102ca4fbdff4989b96df5.png)
点击上面的"New Notebook"打开一个新的页面标签, 在其中输入如下命令行,并按播放按钮来执行结果
![](https://i-blog.csdnimg.cn/blog_migrate/bc5ad78e45fc3e7f30ca9b598f3dc0ce.png)
按Ctrl-D退出shell环境
6.使用Scala shell测试line count小程序
打开Scala版本的shell,运行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()
![](https://i-blog.csdnimg.cn/blog_migrate/8d5804f919b9a0d8367a0f0ec700d026.png)
按Ctrl-D退出shell环境
7.测试Spark性能
进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下内容
export SCALA_HOME=/usr/local/spark/scala (这个为scala的安装后的根目录 )
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79(jdk的根目录)
export SPARK_MASTER_IP=127.0.0.1
export SPARK_WORKER_MEMORY=1G
启动主服务器节点
sbin/start-master.sh
启动从服务器节点
sbin/start-slaves.sh spark://127.0.0.1:7077
若启动过程中报错connect to host localhost port 22: Connection refused
造成这个错误的原因可能是ssh-server未安装或者未启动。ubuntu 11.10 默认安装openssh-client,但是木有安装server
运行 ps -e | grep ssh,查看是否有sshd进程
如果没有,说明server没启动,通过 /etc/init.d/ssh -start 启动server进程,如果提示ssh不存在 那么就是没安装server
通过 sudo apt-get install openssh-server命令安装即可
sbin/stop-master.sh
sbin/stop-slaves.sh
![](https://i-blog.csdnimg.cn/blog_migrate/29173bf4118e553535227b3ab91f6344.png)
浏览master UI
http://127.0.0.1:8080/
![](https://i-blog.csdnimg.cn/blog_migrate/b2c3a75b20a12e6cc231db1796d0f6e7.png)
http://127.0.0.1:8081/
![](https://i-blog.csdnimg.cn/blog_migrate/2bdd789d4bfad88e8b29b74433d55862.png)
运行样例
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077