Hadoop 2.4.1集群搭建

最新推荐文章于 2024-07-11 16:34:57 发布

中华金花茶

最新推荐文章于 2024-07-11 16:34:57 发布

阅读量206

点赞数

文章标签： Hadoop 大数据集群服务 hdfs

本文链接：https://blog.csdn.net/lbg198808/article/details/79481524

版权

   Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 
 
   用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 
 
   Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 
 
   Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算

 
 一、安装hadoop包 

  1、使用课程提供的hadoop-2.4.1.tar.gz，使用WinSCP上传到CentOS的/usr/local目录下。 

  2、将hadoop包进行解压缩：tar -zxvf hadoop-2.4.1.tar.gz 

  3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop 

  4、配置hadoop相关环境变量 

  vi .bashrc 

  export HADOOP_HOME=/usr/local/hadoop 

  export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin 

  source .bashrc 

 
 二、修改core-site.xml 

  <property> 

    <name>fs.default.name</name> 

    <value>hdfs://spark1:9000</value> 

  </property> 

 
 三、修改hdfs-site.xml 

  <property> 

    <name>dfs.name.dir</name> 

    <value>/usr/local/data/namenode</value> 

  </property> 

  <property> 

    <name>dfs.data.dir</name> 

    <value>/usr/local/data/datanode</value> 

  </property> 

  <property> 

    <name>dfs.tmp.dir</name> 

    <value>/usr/local/data/tmp</value> 

  </property> 

  <property> 

    <name>dfs.replication</name> 

    <value>3</value> 

  </property> 

 
 四、修改mapred-site.xml 

  <property> 

    <name>mapreduce.framework.name</name> 

    <value>yarn</value> 

  </property> 

 
 五、修改yarn-site.xml 

  <property> 

    <name>yarn.resourcemanager.hostname</name> 

    <value>spark1</value> 

  </property> 

  <property> 

    <name>yarn.nodemanager.aux-services</name> 

    <value>mapreduce_shuffle</value> 

  </property> 

 
 六、修改slaves文件 

  spark1 

  spark2 

  spark3 

 
 七、在另外两台机器上搭建hadoop 

  1、使用如上配置在另外两台机器上搭建hadoop，可以使用scp命令将spark1上面的hadoop安装包和.bashrc配置文件都拷贝过去。 

  2、要记得对.bashrc文件进行source，以让它生效。 

  3、记得在spark2和spark3的/usr/local目录下创建data目录。 

 
 八、启动hdfs集群 

  1、格式化namenode：在spark1上执行以下命令，hdfs namenode -format 

  2、启动hdfs集群：start-dfs.sh3、验证启动是否成功：jps、50070端口 

  spark1：namenode、datanode、secondarynamenode 

  spark2：datanode 

  spark3：datanode 

 
 九、启动yarn集群 

  1、启动yarn集群：start-yarn.sh2、验证启动是否成功：jps、8088端口 

  spark1：resourcemanager、nodemanager 

  spark2：nodemanager 

  spark3：nodemanager 

中华金花茶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 2.4.1集群搭建

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throug...
复制链接

扫一扫