Hadoop搭建(Linux)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/catinlbb/article/details/110159895

因为今天安装时候发现完全按照上述这篇大佬写的文章有些地方会出问题,所以整理了一下现在安装Hadoop的一些注意点和步骤,基本流程与上述一致。【2022.3.28】

目录

版本信息1

安装JDK2

安装Hadoop3

修改Hadoop配置文件4

配置ssh免密登录5

启动Hadoop6

其余问题7

版本信息

服务器:阿里云轻量级,2G2核

JDK:1.8

Hadoop:3.2.2

安装JDK

下载jdk安装包

wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

解压安装包

tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

移动并重命名JDK

mv java-se-8u41-ri/ /usr/java8 

打开添加环境变量的文件

vim /etc/profile

在末尾添加环境变量(按 i 进入编辑模式,按esc后在最下面输入:wq保存并退出)

export JAVA_HOME=/usr/java8
export PATH=$PATH:$JAVA_HOME/bin

刷新配置

source /etc/profile

安装Hadoop

下载Hadoop安装包

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

解压安装包,移动至/opt/hadoop

tar -zxvf hadoop-3.2.2.tar.gz -C /opt/
mv /opt/hadoop-3.2.2 /opt/hadoop

打开添加环境变量的文件

vim /etc/profile

在最后追加环境变量

export HADOOP_HOME=/opt/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

刷新配置

source /etc/profile

修改配置文件:

vim /opt/hadoop/etc/hadoop/yarn-env.sh  # 打开文件yarn-env.sh
export JAVA_HOME=/usr/java8  # 在末尾追加
vim /opt/hadoop/etc/hadoop/hadoop-env.sh  # 打开文件hadoop-env.sh
export JAVA_HOME=/usr/java8  # 在末尾追加

测试Hadoop是否安装成功

hadoop version

修改Hadoop配置文件

打开core-site.xml

vim /opt/hadoop/etc/hadoop/core-site.xml

在节点内插入如下内容

  <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/hadoop/tmp</value>
        <description>location to store temporary files</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

打开hdfs-site.xml

 vim /opt/hadoop/etc/hadoop/hdfs-site.xml

在节点内插入如下内容

 <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/data</value>
    </property>

配置ssh免密登录

创建公钥和私钥

ssh-keygen -t rsa

连续点击Enter(大概有三个)

添加公钥

cd .ssh
cat id_rsa.pub >> authorized_keys

启动Hadoop

初始化namenode

hadoop namenode -format

打开/etc/profile

vim /etc/profile

在末尾添加环境变量配置

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启动Hadoop,(关闭Hadoop只需要把start换成stop)

start-dfs.sh
start-yarn.sh

查看端口情况

netstat -lnpt

浏览器访问Hadoop页面

http://公网IP:8088

http://公网IP:9870 本来应该是50070,但是试过很多办法进不去,发现这个9870端口和60070一样

其余问题

  • 访问不了8088

    查看防火墙状态,防火墙为 Active:inactive (dead) 状态

    systemctl status firewalld
    

    关闭防火墙,关闭防火墙自启动

    systemctl stop firewalld
    systemctl disable firewalld
    

  1. 版本信息

    服务器:阿里云轻量级,2G2核

    JDK:1.8

    Hadoop:3.2.2 ↩︎

  2. 安装JDK

    下载jdk安装包

    wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz
    

    解压安装包

    tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz
    

    移动并重命名JDK

    mv java-se-8u41-ri/ /usr/java8 
    

    打开添加环境变量的文件

    vim /etc/profile
    

    在末尾添加环境变量(按 i 进入编辑模式,按esc后在最下面输入:wq保存并退出)

    export JAVA_HOME=/usr/java8
    export PATH=$PATH:$JAVA_HOME/bin
    

    刷新配置

    source /etc/profile
    
    ↩︎
  3. 安装Hadoop

    下载Hadoop安装包

    wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
    

    解压安装包,移动至/opt/hadoop

    tar -zxvf hadoop-3.2.2.tar.gz -C /opt/
    mv /opt/hadoop-3.2.2 /opt/hadoop
    

    打开添加环境变量的文件

    vim /etc/profile
    

    在最后追加环境变量

    export HADOOP_HOME=/opt/hadoop/
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    

    刷新配置

    source /etc/profile
    

    修改配置文件:

    vim /opt/hadoop/etc/hadoop/yarn-env.sh  # 打开文件yarn-env.sh
    export JAVA_HOME=/usr/java8  # 在末尾追加
    
    vim /opt/hadoop/etc/hadoop/hadoop-env.sh  # 打开文件hadoop-env.sh
    export JAVA_HOME=/usr/java8  # 在末尾追加
    

    测试Hadoop是否安装成功

    hadoop version
    
    ↩︎
  4. 修改Hadoop配置文件

    打开core-site.xml

    vim /opt/hadoop/etc/hadoop/core-site.xml
    

    在节点内插入如下内容

      <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/opt/hadoop/tmp</value>
            <description>location to store temporary files</description>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    

    打开hdfs-site.xml

     vim /opt/hadoop/etc/hadoop/hdfs-site.xml
    

    在节点内插入如下内容

     <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/opt/hadoop/tmp/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/opt/hadoop/tmp/dfs/data</value>
        </property>
    
    ↩︎
  5. 配置ssh免密登录

    创建公钥和私钥

    ssh-keygen -t rsa
    

    连续点击Enter(大概有三个)

    添加公钥

    cd .ssh
    cat id_rsa.pub >> authorized_keys
    
    ↩︎
  6. 启动Hadoop

    初始化namenode

    hadoop namenode -format
    

    打开/etc/profile

    vim /etc/profile
    

    在末尾添加环境变量配置

    export HDFS_NAMENODE_USER=root
    export HDFS_DATANODE_USER=root
    export HDFS_SECONDARYNAMENODE_USER=root
    export YARN_RESOURCEMANAGER_USER=root
    export YARN_NODEMANAGER_USER=root
    

    启动Hadoop,(关闭Hadoop只需要把start换成stop)

    start-dfs.sh
    start-yarn.sh
    

    查看端口情况

    netstat -lnpt
    

    浏览器访问Hadoop页面

    http://公网IP:8088

    http://公网IP:9870 本来应该是50070,但是试过很多办法进不去,发现这个9870端口和60070一样 ↩︎

  7. 其余问题

    • 访问不了8088

      查看防火墙状态,防火墙为 Active:inactive (dead) 状态

      systemctl status firewalld
      

      关闭防火墙,关闭防火墙自启动

      systemctl stop firewalld
      systemctl disable firewalld
      
    ↩︎
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hadoop是一个分布式存储和分布式计算框架。要在Linux系统上搭建Hadoop,需要以下步骤: 1. 安装Java:Hadoop需要Java的运行环境,因此需要在Linux系统上安装Java。 2. 下载Hadoop:在官网上下载Hadoop的最新版本,或者使用wget命令下载。 3. 配置Hadoop:需要配置Hadoop的环境变量、配置文件等。 4. 启动Hadoop:使用start-dfs.sh和start-yarn.sh命令启动Hadoop。 5. 测试Hadoop:使用hadoop fs命令来检查Hadoop是否安装成功。 6. 安装hadoop ecosystem的工具,如hive,spark,hbase 7. 由于Hadoop是一个分布式系统,所以需要在多台机器上部署, 配置完成后需要设置好每台节点的角色,主节点,从节点等。 8. 根据业务需求构建好数据管理和处理流程。 其中第7步是核心步骤,需要根据实际情况进行配置,需要熟悉hadoop和相关工具的配置。 ### 回答2: Hadoop是基于分布式计算模型的开源框架,用于处理大规模数据集。如果您想在Linux搭建Hadoop,以下是一些步骤可以为您提供指导: 1. 安装Java: Hadoop是使用Java编写的,所以需要安装最新版本的Java。可以从Oracle官网上下载Java并按照说明安装。 2. 下载HadoopHadoop的下载可在Apache官方网站上获取。下载后,解压缩文件并将其移动到需要安装的位置。 3. 配置Hadoop环境变量:将Hadoop的安装路径添加到系统环境变量中,以便在终端中访问Hadoop。 4. 修改Hadoop配置文件:修改Hadoop的配置文件以适应自己的环境。首先要修改hadoop-env.sh,该文件包含Java和Hadoop等路径。然后修改core-site.xml,该文件是Hadoop的配置文件,配置文件中包含的是NameNode和DataNode,它们是管理分布式文件系统的核心。接下来,我们还要修改hdfs-site.xml,这个文件是HDFS的配置文件。 5. 启动Hadoop集群:在启动Hadoop之前,需要在NameNode节点上格式化HDFS。命令为:hadoop namenode –format。然后使用以下命令启动Hadoop: start-all.sh 。这将启动用于管理Hadoop集群的所有守护进程。 6. 测试Hadoop集群:使用以下命令启动Hadoop shell: start-dfs.sh,用语检查Hadoop是否正在运行。接下来,将数据上传到HDFS:hadoop fs –put /path/to/local/file /path/to/HDFS。最后,检查数据是否成功传输:hadoop fs –ls /path/to/HDFS。 此外,还有其他的配置可以优化Hadoop的性能和可靠性。总的来说,搭建Hadoop需要具备一定的LinuxHadoop基础知识。如果您对LinuxHadoop不是很熟悉,可以先学习一些基础知识,从而更好地理解配置过程。 ### 回答3: Linux Hadoop搭建教程 Hadoop是Apache软件基金会开发的一个开源分布式计算平台,用于大数据存储和处理。它旨在解决受限于单个计算机能力的数据处理问题,结合多台计算机完成任务,具有高可靠性、高扩展性的优势。在Linux系统中,Hadoop搭建需要以下步骤。 1. 准备环境 首先需要安装Java环境,在终端命令行输入“java -version”可查看Java版本。Hadoop官方建议使用OpenJDK 7以上的版本。可运行以下命令安装OpenJDK 8: > sudo apt-get update > sudo apt-get install openjdk-8-jdk 2. 下载和安装Hadoop 官网下载最新的Hadoop发行版。使用命令解压后放置在指定的路径,例如/opt/hadoop。 > tar xzf hadoop-3.2.1.tar.gz > sudo mv hadoop-3.2.1 /opt/ > sudo chown -R hduser:hadoop /opt/hadoop-3.2.1 其中hduser为Hadoop的用户,需在Linux系统上创建。 3. 配置Hadoop环境变量 编辑“/etc/profile”文件,加入以下配置: > export HADOOP_INSTALL=/opt/hadoop-3.2.1 > export HADOOP_HOME=$HADOOP_INSTALL > export HADOOP_MAPRED_HOME=$HADOOP_HOME > export HADOOP_COMMON_HOME=$HADOOP_HOME > export HADOOP_HDFS_HOME=$HADOOP_HOME > export YARN_HOME=$HADOOP_HOME > export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop > export YARN_CONF_DIR=$HADOOP_CONF_DIR > export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 保存并退出,执行以下命令更新环境变量: > source /etc/profile 4. 配置Hadoop 在“/opt/hadoop-3.2.1/etc/hadoop/”路径下有多个配置文件,需要根据需要调整。其中,“hadoop-env.sh”文件设置Java环境变量: > export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 > export HADOOP_HOME=/opt/hadoop-3.2.1 “core-site.xml”文件配置文件系统使用的端口和路径: hadoop.tmp.dir=${hadoop.tmp.dir}/hadoop-${user.name} fs.default.name=hdfs://localhost:9000 “hdfs-site.xml”配置HDFS的路径和副本数: dfs.replication=1 dfs.namenode.name.dir=file:/opt/hadoop-3.2.1/data/dfs/namenode dfs.datanode.data.dir=file:/opt/hadoop-3.2.1/data/dfs/datanode “mapred-site.xml”配置MapReduce的参数: mapred.job.tracker=localhost:54311 “yarn-site.xml”配置YARN的参数: yarn.nodemanager.aux-services=mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce_shuffle.class=org.apache.hadoop.mapred.ShuffleHandler 5. 启动Hadoop 运行以下命令启动HDFS和YARN: > /opt/hadoop-3.2.1/sbin/start-dfs.sh > /opt/hadoop-3.2.1/sbin/start-yarn.sh 在浏览器中输入“http://localhost:9870/”可查看Hadoop的运行情况。若需要停止,可运行以下命令: > /opt/hadoop-3.2.1/sbin/stop-dfs.sh > /opt/hadoop-3.2.1/sbin/stop-yarn.sh 以上就是在Linux系统上搭建Hadoop的基本步骤。需要注意的是,Hadoop需要在多台机器上分布式运行,更详细的搭建流程可以参考官方文档。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值