hadoop：spark-project项目的hadoop配置

最新推荐文章于 2021-05-14 09:32:59 发布

花和尚也有春天

最新推荐文章于 2021-05-14 09:32:59 发布

阅读量314

点赞数

分类专栏： hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38750084/article/details/82762725

版权

hadoop 专栏收录该内容

33 篇文章 5 订阅

订阅专栏

1、使用hadoop-2.5.0-cdh5.3.6.tar.gz，上传到虚拟机的/usr/local目录下。（http://archive.cloudera.com/cdh5/cdh/5/）

2、将hadoop包进行解压缩：tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

3、对hadoop目录进行重命名：mv hadoop-2.5.0-cdh5.3.6 hadoop

4、配置hadoop相关环境变量

vi ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source ~/.bashrc

5、创建/usr/local/data目录

修改core-site.xml

<property>

<name>fs.default.name</name>

<value>hdfs://sparkproject1:9000</value>

</property>

修改hdfs-site.xml

//用于确定将HDFS文件系统的元信息保存在什么目录下。若设置为多个目录，那这些目录下都保存着元信息的多个备份。

<property>

<name>dfs.name.dir</name>

<value>/usr/local/data/namenode</value>

</property>

//用于确定将HDFS文件系统的数据保存在什么目录下。将这个参数设置为多个分区上目录，即可将HDFS建在不同分区上

<property>

<name>dfs.data.dir</name>

<value>/usr/local/data/datanode</value>

</property>

//dfs.tmp.dir在安装配置HADOOP的时候，一定要更改hadoop.tmp.dir ，机器意外断电，服务重启后，/tmp 下的目录被清空，默认位置在/tmp/{$user}

<property>

<name>dfs.tmp.dir</name> //

<value>/usr/local/data/tmp</value>

</property>

//hadoop的备份系数，每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3.

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

参考：

http://blog.sina.com.cn/s/blog_48a45b95010119cy.html

https://blog.csdn.net/bluetropic/article/details/9493995

https://blog.csdn.net/linuxnc/article/details/51766406

修改mapred-site.xml

//名称mapreduce.framework.name指的是使用yarn运行mapreduce程序

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

修改yarn-site.xml

//名称yarn.resourcemanager.hostname指的是运行ResourceManager机器所在的节点位置

<property>

<name>yarn.resourcemanager.hostname</name>

<value>sparkproject1</value>

</property>

//yarn.nodemanager.aux-services 指的是NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

修改slaves文件

sparkproject2

sparkproject3

在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop，可以使用scp命令将sparkproject1上面的hadoop安装包和~/.bashrc配置文件都拷贝过去。（scp -r hadoop root@sparkproject2:/usr/local）

2、要记得对.bashrc文件进行source，以让它生效。

3、记得在sparkproject2和sparkproject3的/usr/local目录下创建data目录。

启动hdfs集群

1、格式化namenode：在sparkproject1上执行以下命令，hdfs namenode -format

2、启动hdfs集群：start-dfs.sh

3、验证启动是否成功：

jps、50070端口

sparkproject1：namenode、secondarynamenode

sparkproject2：datanode

sparkproject3：datanode

以下是部署单机的日志：

4、hdfs dfs -put hello.txt /hello.txt

启动yarn集群

1、启动yarn集群：start-yarn.sh

2、验证启动是否成功：

jps、8088端口

sparkproject1：resourcemanager、nodemanager

sparkproject2：nodemanager

sparkproject3：nodemanager

以下是部署单机的日志：

然后就可以打开了：

花和尚也有春天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。