hadoop:spark-project项目的hadoop配置

1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上传到虚拟机的/usr/local目录下。(http://archive.cloudera.com/cdh5/cdh/5/)

2、将hadoop包进行解压缩:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

3、对hadoop目录进行重命名:mv hadoop-2.5.0-cdh5.3.6 hadoop

4、配置hadoop相关环境变量

vi ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source ~/.bashrc

5、创建/usr/local/data目录

 

修改core-site.xml

<property>  

<name>fs.default.name</name>  

<value>hdfs://sparkproject1:9000</value>

</property>

修改hdfs-site.xml

 

//用于确定将HDFS文件系统的元信息保存在什么目录下。若设置为多个目录,那这些目录下都保存着元信息的多个备份

<property>   

<name>dfs.name.dir</name>  

<value>/usr/local/data/namenode</value>

</property>

 

//用于确定将HDFS文件系统的数据保存在什么目录下。将这个参数设置为多个分区上目录,即可将HDFS建在不同分区上

<property>

<name>dfs.data.dir</name>

<value>/usr/local/data/datanode</value>

</property>

 

//dfs.tmp.dir在安装配置HADOOP的时候,一定要更改hadoop.tmp.dir ,机器意外断电,服务重启后,/tmp 下的目录被清空,默认位置在/tmp/{$user}

<property>  

<name>dfs.tmp.dir</name>  // 

<value>/usr/local/data/tmp</value>

</property>

//hadoop的备份系数,每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.

<property> 

<name>dfs.replication</name>  

<value>2</value>

</property>

 

参考:

http://blog.sina.com.cn/s/blog_48a45b95010119cy.html

https://blog.csdn.net/bluetropic/article/details/9493995

https://blog.csdn.net/linuxnc/article/details/51766406

修改mapred-site.xml

//名称mapreduce.framework.name指的是使用yarn运行mapreduce程序

<property>  

<name>mapreduce.framework.name</name>  

<value>yarn</value>

</property>

修改yarn-site.xml

//名称yarn.resourcemanager.hostname指的是运行ResourceManager机器所在的节点位置

<property>  

<name>yarn.resourcemanager.hostname</name>  

<value>sparkproject1</value>

</property>

//yarn.nodemanager.aux-services 指的是NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

<property>  

<name>yarn.nodemanager.aux-services</name>  

<value>mapreduce_shuffle</value>

</property>

修改slaves文件

sparkproject2

sparkproject3

 

在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将sparkproject1上面的hadoop安装包和~/.bashrc配置文件都拷贝过去。(scp -r hadoop root@sparkproject2:/usr/local)

2、要记得对.bashrc文件进行source,以让它生效。

3、记得在sparkproject2和sparkproject3的/usr/local目录下创建data目录。

启动hdfs集群

1、格式化namenode:在sparkproject1上执行以下命令,hdfs namenode -format

2、启动hdfs集群:start-dfs.sh

3、验证启动是否成功:

jps、50070端口

sparkproject1:namenode、secondarynamenode

sparkproject2:datanode

sparkproject3:datanode

以下是部署单机的日志:

4、hdfs dfs -put hello.txt /hello.txt

启动yarn集群

1、启动yarn集群:start-yarn.sh

2、验证启动是否成功:

jps、8088端口

sparkproject1:resourcemanager、nodemanager

sparkproject2:nodemanager

sparkproject3:nodemanager

以下是部署单机的日志:

 

然后就可以打开了:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值