在虚拟机中ubuntu版本的Spark配置

最新推荐文章于 2024-01-14 15:48:24 发布

万里国度

最新推荐文章于 2024-01-14 15:48:24 发布

阅读量946

点赞数

文章标签：虚拟机 spark hadoop集群

本文链接：https://blog.csdn.net/wanliguodu/article/details/45076909

版权

一．安装JA VA
1.创建JAVA目录：mkdir /usr/lib/java
2.将下载好的jdk移到(mv 源文件 /usr/lib/java）
3.cd /usr/lib/java
4.解压tar -xvf jdk名称
5.修改环境变量：进入3的目录下vim ~/.bashrc
export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

6.测试Java的版本：java -version

二、配置Hadoop
1.安装ssh
apt-get install ssh
2.启动ssh
/etc/init.d/ssh start
3.验证服务是否正常启动
ps -e |gerp ssh
4. cat ~/.ssh/id_rsa.pud >> ~/.ssh/authorized_keys
5.安装rsync
apt-get install rsync

6.安装Hadoop
mdkir /usr/local/hadoop
解压 tar -xvf hadoop的文件
移动 mv
7.在Hadoop-env.sh 配置Java安装信息
进入/usr/local/Hadoop/hadoop-1.2.1/conf
打开 Hadoop-env.sh
加入 export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
保存生效 source hadoop-env.sh

8.为了方便我们在开机启动后立即使用Hadoop的bin目录的相关命令，把bin目录配置到“~/.bashrc”文件
中，在“~/.bashrc”的PATH中加入:/usr/local/hadoop/hadoop-1.2.1/bin
保存生效 source ~/.bashrc

9.运行Hadoop自带的WordCount例子
cd /usr/local/hadoop/hadoop-1.2.1
mkdir input
cp conf/* input
进入 cd /usr/local/hadoop/hadoop-1.2.1
hadoop jar hadoop-example-1.2.1.jar wordcount input output
查看运行结果 cat output/*

10.配置Hadoop伪分布式模式

·修改Hadoop的核心配置文件 core-site.xml,主要配置HDFS的地址和端口号

?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>


<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/tmp</value>
</property>
</configuration>

. 修改Hadoop中的HDFS的配置文件hdfs-site.xml,主要配置replication

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>


<configuration>
<property>
<name>dfs.replication</name>
<value> 你想使用的节点数量 </value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/hdfs/data</value>
</property>
</configuration>

.修改Hadoop的MapReduce的配置文件mapred-site.xml，主要配置JobTracker的地址和端口号

11.启动Hadoop start-all.sh
12.使用新建的伪分布式平台运行Wordcount程序
hadoop dfs -mkdir input
hadoop dfs -copyFromLocal /uar/local/hadoop/hadoop-1.2.1/conf/* input
hadoop jar hadoop-examples-1.2.1.jar wordcount input output

三、配置Hadoop分布式集群环境
1.在/etc/hostname 中修改主机名并在/etc/hosts 中配置主机名和IP地址的对应关系
2.vim /etc/hosts
3.ping 命令看一下主机名和IP地址之间的转换关系是否正确
4.使集群通过ssh免密码登陆
在slave1中 cd /root/.ssh
scp id_rsa.pub root@master:/root/.ssh/id_rsa.pub.slave1(slave2也要传)
5.master节点上综合所有公钥
在master cd /root/.ssh
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub.slave1 >> authorized_keys
cat id_rsa.pub.slave2 >> authorized_keys
6.masterd 的公钥authorized_keys复制到slave1和slave2的.ssh目录下：
在master cd /root/.ssh
scp authorized_keys root@slave1:/root/.ssh/authorized_keys
scp authorized_keys root@slave2:/root/.ssh/authorized_keys

7.修改master的core-site.xml文件
把localhost域名改为master，同样的操作分别打开slave1和slave2节点core-site.xml
把localhost域名改为master
其次修改master、slave1和slave2的mapred-site.xml文件，mapred-site.xml中吧localhost域名改为
master
最后修改master、slave1和slave2的hdfs-site.xml文件，把dfs.replication的值
由1改为3
8.修改Hadoop配置文件的master和slave文件
master中 cd /usr/local/hadoop/hadoop-1.2.1/conf
vim master
将localhost改为master

vim slaves
添加master
slave1
slave2
把master配置的masters和slaves文件分别拷贝到slave1和slave2的Hadoop安装目录下的conf
文件下
cd /usr/local/hadoop/hadoop-1.2.1/conf
scp masters root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf
scp slaves root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf

scp masters root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf
scp slaves root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf

9.通过master节点格式化集群的文件系统
hadoop namenode -format

10.启动hadoop集群：start-all.sh

四、安装Scala
1.mkdir /usr/lib/scala
2.修改环境变量 vim~/.bashrc
把Scala的环境变量信息加入其中 export SCALA_HOME=......
PATH=${SCALA_HOME}/bin
保存生效source ~/.bashrc
3.测试安装Scala版本：scala -version

五、安装Spark
1.mkdir /usr/local/spark
2.解压于此 tar xzf spark文件
3.cd /usr/local/spark/
vim ~/.bashrc
将SPARK_HOEM加入进去，并把spark的bin目录加到PATH中
保存生效 source ~/.bashrc

4.配置spark
进入conf目录
把spark-env.sh.template拷到spark-env.sh
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
在配置文件中添加如下配置信息：
export JAVA_HOME=
export SCALA_HOME=
export SPARK_MASTER_IP=
export SPARK_WORKER_MEMORY=2g
export HADOOP_CNOF_DOR=...../conf

5.接下来配置spark的conf的slaves文件，把worker节点都添加进去
worker
slave1
slave2
6.slave1和slave2采用和master完全移动的spark安装配置