在虚拟机中ubuntu版本的Spark配置

一.安装JA VA
1.创建JAVA目录:mkdir /usr/lib/java
2.将下载好的jdk移到(mv 源文件 /usr/lib/java)
3.cd /usr/lib/java
4.解压tar -xvf jdk名称
5.修改环境变量:进入3的目录下vim ~/.bashrc 
export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

6.测试Java的版本:java -version


二、配置Hadoop
1.安装ssh
apt-get install ssh
2.启动ssh
/etc/init.d/ssh start
3.验证服务是否正常启动
ps -e |gerp ssh
4.  cat ~/.ssh/id_rsa.pud >> ~/.ssh/authorized_keys
5.安装rsync
apt-get install rsync


6.安装Hadoop
mdkir /usr/local/hadoop
解压 tar -xvf hadoop的文件
移动 mv
7.在Hadoop-env.sh 配置Java安装信息
进入/usr/local/Hadoop/hadoop-1.2.1/conf
打开 Hadoop-env.sh
加入 export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
保存生效 source hadoop-env.sh


8.为了方便我们在开机启动后立即使用Hadoop的bin目录的相关命令,把bin目录配置到“~/.bashrc”文件
中,在“~/.bashrc”的PATH中加入:/usr/local/hadoop/hadoop-1.2.1/bin
保存生效 source ~/.bashrc

9.运行Hadoop自带的WordCount例子
cd /usr/local/hadoop/hadoop-1.2.1
mkdir input
cp conf/* input
进入 cd /usr/local/hadoop/hadoop-1.2.1
hadoop jar hadoop-example-1.2.1.jar wordcount input output
查看运行结果 cat output/*

10.配置Hadoop伪分布式模式

·修改Hadoop的核心配置文件 core-site.xml,主要配置HDFS的地址和端口号

?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/hadoop/hadoop-1.2.1/tmp</value>
        </property>
</configuration>



. 修改Hadoop中的HDFS的配置文件hdfs-site.xml,主要配置replication

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>dfs.replication</name>
                <value> 你想使用的节点数量  </value>
        </property>
        <property>
                    <name>dfs.name.dir</name>
                   <value>/usr/hadoop/hadoop-1.2.1/hdfs/name</value>
         </property>
         <property>
                      <name>dfs.data.dir</name>
                     <value>/usr/hadoop/hadoop-1.2.1/hdfs/data</value>
          </property>
</configuration>


.修改Hadoop的MapReduce的配置文件mapred-site.xml,主要配置JobTracker的地址和端口号

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>master:9001</value>
        </property>
</configuration>



11.启动Hadoop start-all.sh
12.使用新建的伪分布式平台运行Wordcount程序
hadoop dfs -mkdir input
hadoop dfs -copyFromLocal /uar/local/hadoop/hadoop-1.2.1/conf/* input
hadoop jar hadoop-examples-1.2.1.jar wordcount input output


三、配置Hadoop分布式集群环境
1.在/etc/hostname 中修改主机名并在/etc/hosts 中配置主机名和IP地址的对应关系
2.vim /etc/hosts
3.ping 命令看一下主机名和IP地址之间的转换关系是否正确
4.使集群通过ssh免密码登陆
在slave1中 cd /root/.ssh
scp id_rsa.pub root@master:/root/.ssh/id_rsa.pub.slave1(slave2也要传)
5.master节点上综合所有公钥
在master cd /root/.ssh 
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub.slave1 >> authorized_keys
cat id_rsa.pub.slave2 >> authorized_keys
6.masterd 的公钥authorized_keys复制到slave1和slave2的.ssh目录下:
在master cd /root/.ssh
scp authorized_keys root@slave1:/root/.ssh/authorized_keys
scp authorized_keys root@slave2:/root/.ssh/authorized_keys


7.修改master的core-site.xml文件
把localhost域名改为master,同样的操作分别打开slave1和slave2节点core-site.xml
把localhost域名改为master
其次修改master、slave1和slave2的mapred-site.xml文件,mapred-site.xml中吧localhost域名改为
master
最后修改master、slave1和slave2的hdfs-site.xml文件,把dfs.replication的值
由1改为3
8.修改Hadoop配置文件的master和slave文件
master中 cd /usr/local/hadoop/hadoop-1.2.1/conf
vim master 
将localhost改为master


vim slaves
添加master
slave1
slave2
把master配置的masters和slaves文件分别拷贝到slave1和slave2的Hadoop安装目录下的conf
文件下
cd /usr/local/hadoop/hadoop-1.2.1/conf
scp masters root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf
scp slaves root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf

scp masters root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf
scp slaves root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf


9.通过master节点格式化集群的文件系统
hadoop namenode -format

10.启动hadoop集群:start-all.sh

四、安装Scala
1.mkdir /usr/lib/scala
2.修改环境变量 vim~/.bashrc
把Scala的环境变量信息加入其中 export SCALA_HOME=......
PATH=${SCALA_HOME}/bin
保存生效source ~/.bashrc
3.测试安装Scala版本:scala -version


五、安装Spark
1.mkdir /usr/local/spark
2.解压于此 tar xzf spark文件
3.cd /usr/local/spark/
vim ~/.bashrc
将SPARK_HOEM加入进去,并把spark的bin目录加到PATH中
保存生效 source ~/.bashrc


4.配置spark
进入conf目录
把spark-env.sh.template拷到spark-env.sh
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
在配置文件中添加如下配置信息:
export JAVA_HOME=
export SCALA_HOME=
export SPARK_MASTER_IP=
export SPARK_WORKER_MEMORY=2g
export HADOOP_CNOF_DOR=...../conf

5.接下来配置spark的conf的slaves文件,把worker节点都添加进去
worker
slave1
slave2
6.slave1和slave2采用和master完全移动的spark安装配置



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值