linux/windows单机配置spark

最新推荐文章于 2024-07-21 21:43:54 发布

HelloJFS

最新推荐文章于 2024-07-21 21:43:54 发布

阅读量499

点赞数

分类专栏： spark 文章标签： spark cygwin

本文链接：https://blog.csdn.net/HelloJFS/article/details/53142983

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

linux单机配置spark

说明：在window上安装spark跟linux上差不多，只需安装cygwin模拟linux环境就可以了。

安装清单：
1. jdk-8u111-linux-i586.tar.gz
2. scala-2.10.6.tgz
3. hadoop-2.6.0.tar.gz
4. spark-2.0.1-bin-hadoop2.7.tgz
这些都可以从官网下载，这里附百度云盘链接：链接: http://pan.baidu.com/s/1hsyT3k4 密码: i5sq

所有安装包我放在 /home/song/spark/package 目录下
所有安装我均安装在 /home/song/spark 目录下

1.安装jdk：切换到安装目录 - 解压 - 修改环境变量

cd /home/song/spark
tar -xzvf ./package/jdk-8u73-linux-x64.tar.gz
sudo vi /etc/profile

备注1： Ubuntu系统，可能会出现vi编辑器方向键不能正常使用，解决方法：

方法1：
sudo apt-get remove vim-common
sudo apt-get install vim

方法2:
sudo apt-get update
sudo apt-get install vim

编辑 /etc/profile 文件。(备注2：因为修改权限的问题需要sudo执行，负责可能会出现不能保存的问题)

export JAVA_HOME=/home/song/spark/jdk1.8.0_111/
export JRE_HOME=/home/song/spark/jdk1.8.0_111/jre
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

保存，更新 /etc/profile 文件

source /etc/profile

查看安装是否成功

java -version

2.配置 ssh localhost

备注3：因为单机下只能配置单节点，不能配置master与多个slave

安装启动ssh

sudo apt-get update
sudo apt-get install openssh-server
sudo /etc/init.d/ssh start

生成添加秘钥和公钥(一路回车)：

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

检查ssh能否登陆localhost

ssh localhost
exit

3.安装hadoop2.6.0

解压到安装目录：

cd /home/song/spark
tar -xzvf ./package/hadoop-2.6.0.tar.gz

修改 /etc/profile 文件，添加java环境变量

export HADOOP_HOME=/home/song/spark/hadoop-2.6.0
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

配置 /home/song/spark/hadoop-2.6.0/etc/hadoop/hadoop-env.sh 文件

cd /home/song/spark/hadoop-2.6.0/etc/hadoop
vi hadoop-env.sh

文件最后加上Java环境

export JAVA_HOME=/home/song/spark/jdk1.8.0_111/

修改Configuration(配置)文件：

(1) 修改：core-site.xml

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

(2) 修改 hdfs-site.xml

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>  # 配置的备份方式，在单机hadoop中，设置为1（默认为3）
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/song/spark/hadoopdata/hdfs/namenode</value>
</property>  #这里路径要换成自己数据存放路径

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/song/spark/hadoopdata/hdfs/datanode</value>
</property>  #这里路径要换成自己数据存放路径
</configuration>

(3) 修改 mapred-site.xml

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

(4) 修改 yarn-site.xml

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

初始化hadoop(在bin目录下知道hdfs)

cd /home/song/spark/hadoop-2.6.0/bin
./hdfs namenode -format

启动

cd /home/song/spark/hadoop-2.6.0/sbin
./start-all.sh

停止

./start-all.sh

jps查看后台进程

2907 Jps
2323 ResourceManager
2172 SecondaryNameNode
1729 NameNode
2442 NodeManager

检查WebUI，浏览器打开端口： http://localhost :8088

port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode

4.安装scala-2.10.6

解压scala，安装到指定目录

cd /home/song/spark
tar -xzvf ./package/scala-2.10.6.tgz
sudo vi /etc/profile

在 /etc/profile 文件下，添加scala环境变量

export SCALA_HOME=/home/song/spark/scala-2.10.6
export PATH=$SCALA_HOME/bin:$PATH

保存，更新

source  /etc/profile

检查

scala -version

5.安装spark

解压spark安装包到指定安装目录

cd /home/song/spark
tar -xzvf ./package/spark-2.0.1-bin-hadoop2.7.tgz
mv spark-2.0.1-bin-hadoop2.7 spark-2.0.1
sudo vi /etc/profile

在 /etc/profile 文件的末尾添加环境变量：

export SPARK_HOME=/home/song/spark/spark-2.0.1
export PATH=$SPARK_HOME/bin:$PATH

保存，更新

source /etc/profile

在conf目录下复制并重命名 spark-env.sh.template 为 spark-env.sh ：

cp spark-env.sh.template spark-env.sh
vi spark-env.sh

在 spark-env.sh 中添加：

export JAVA_HOME=/home/song/spark/jdk1.8.0_111/
export SCALA_HOME=/home/song/spark/scala-2.10.6
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=1G

启动

cd /home/song/spark/spark-2.0.1
./start-all.sh

停止

./stop-all.sh

运行实例

./run-example SparkPi

得到结果：

Pi is roughly 3.13927

检查WebUI，浏览器打开端口： http://localhost :8080

我只是个小白，写博客是为了以后自己能够翻阅方便，主要参考一下内容：
http://www.tuicool.com/articles/QBRJnen
http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/
Hadoop实战

HelloJFS

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
linux/windows单机配置spark

linux/windows单机配置spark
复制链接

扫一扫

专栏目录

linux/windows单机配置spark

linux单机配置spark

“相关推荐”对你有帮助么？