hdfs伪分布模式搭建

最新推荐文章于 2025-05-13 15:41:54 发布

线条1

最新推荐文章于 2025-05-13 15:41:54 发布

阅读量467

点赞数 7

文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/Cy513841863/article/details/147901816

版权

一、环境准备工作:
1、安装了jdk
2、安装了hadoop
3、关闭了防⽕墙
systemctl status firewalld
4、免密登录
⾃⼰对⾃⼰免密
ssh-copy-id bigdata01 选择yes 输⼊密码
测试免密是否成功： ssh bigdata01
5、修改linux的⼀个安全机制
vi /etc/selinux/config
修改⾥⾯的 SELINUX=disabled
6、设置host映射

二、找到这个位置： /opt/installs/hadoop/etc/hadoop

三、对下面四个文件进行插入和修改

1.找到core-site.xml文件，插入代码

<configuration>
  <!-- 设置namenode节点 -->
  <!-- 注意: hadoop1.x时代默认端⼝9000 hadoop2.x时代默认端⼝8020 hadoop3.x时 代默认端⼝ 9820 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://bigdata01:9820</value>
  </property>
  
  <!-- hdfs的基础路径，被其他属性所依赖的⼀个基础路径 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/installs/hadoop/tmp</value>
  </property>
</configuration>

2.找到hdfs-site.xml文件，插入代码

<configuration>
    <property>
        <!--备份数量-->
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!--secondarynamenode守护进程的http地址：主机名和端⼝号。参考守护进程布局 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>bigdata01:9868</value>
    </property>
    <!-- namenode守护进程的http地址：主机名和端⼝号。参考守护进程布局 -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>bigdata01:9870</value>
    </property>
</configuration>

3.hadoop-env.sh:

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export JAVA_HOME=/opt/installs/jdk

4.workers文件:

vi workers
修改里面的内容为： bigdata01 保存

四、集群格式化、启动、测试

1.对整个集群记性namenode格式化：

*********************************风险操作***********************************

hdfs namenode -format

2.启动集群

start-dfs.sh

3.通过网址访问hdfs集群http://192.168.233.128:9870/(不要照抄，每人不一样)，如果访问不到：检查防火墙是否关闭。

4.测试hdfs文件系统

1、将要统计的内容上传至hdfs文件系统
   hdfs dfs -mkdir /home
   hdfs dfs -put /home/wc.txt /home
2、使用wordcount统计wc.txt

hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output

3、查看统计结果
hdfs dfs -cat /output/*

假如你的环境是伪分布式模式，那么本地模式直接被替换了，回不去了。

此模式跟本地模式有何区别？
这两种方式，首选统计的代码都在本地，但是本地模式，数据和统计的结果都在本地。
伪分布模式，它的数据来源在 hdfs 上，统计结果也放在 hdfs上。

如果此时再执行以前的workcount就会报错，原因是以前是本地模式，现在是伪分布模式，伪分布模式，只会获取hdfs上的数据，将来的结果也放入到hdfs上，不会获取本地数据。