Hadoop集群伪分布式环境搭建-ubuntu

Hadoop集群伪分布式环境搭建-ubuntu

1.VMware和Ubuntu安装完后,配置虚拟网络,这里采用NAT方式,防止后期IP冲突

 

修改本机VMware虚拟网络配置

 

修改Ubuntu网络配置

 

 

2.解决VMware虚拟机网络适配器NAT模式无法上网的问题

 

注意这个服务是否开启(电脑管家和360会关闭这个服务),其他服务同理,如下图所示

 

但是vmware nat service总是自动停止,解决办法是:

这一般是在学校里用锐捷认证上网的情况。原因出在锐捷客户端,锐捷的8021x.exe会自动停止VMware NAT Service服务,导致不能使用vmware的nat模式。

https://blog.csdn.net/ouyangxin95/article/details/50750054

https://blog.csdn.net/su20145104009/article/details/72040800

http://wifi.ggsafe.com/articles/20141218124035513.shtml

 

以上可能找不到好的解决方法,最后写脚本然它一直连接服务,最后我发现第二天重开电脑后锐捷不关闭vmware nat service服务了,难道是重启下机器就可以了?大家可以试下,我的是好了

3.安装Ubuntu组件

 

4.修改主机名和IP的映射关系

vim /etc/hosts             

        192.168.71.101       master

        192.168.71.102       slaver1

        。。。。。。

修改主机名(与业务相关) vim /etc/hostname

关闭防火墙(hadoop的组件都是网络服务,防火墙会阻止相关服务的端口)

防火墙状态查看方法:

(Ubuntu 18.04.2 LTS系统附带的UFW, 默认都是禁用状态,所以输出是「不活动」)具体查看命令如下:sudo ufw status verbose

··             激活防火墙:sudo ufw enable

关闭防火墙:sudo ufw disable

 

5.启动时不启动Ubuntu图形界面

    (1)关闭用户图形界面

        sudo systemctl set-default multi-user.target

        sudo reboot

    (2)开启用户图形界面

        sudo systemctl set-default graphical.target

        sudo reboot

 

6.上传jdk和hadoop并解压

       创建目录app    mkdir app/

解压命令 tar –zxvf 要解压的文件名 –C app/

-zxvf  z表示加压的格式  x表示解压 v表示打印进度 f表示加压哪一个文件 –C表示加压到哪一个路径

安装JDK

              (1)解压   tar –zxvf jdk-8u212-linux-x64.tar.gz –C app/

              (2)配置环境变量

                     sudo vim /etc/profile

                     #在文件最后添加

                     export JAVA_HOME=/home/master/app/jdk1.8.0_212

                     export PATH=$PATH:$JAVA_HOME/bin

      

                     #刷新配置

                     source /etc/profile

7.修改hadoop的配置文件

       Hadoop的配置文件在$HADOOP_HOME/etc/hadoop里

伪分布式需要修改5个配置文件

       (1)配置hadoop

       第一个:hadoop-env.sh

                     vim hadoop-env.sh

                     #第27行

                     export JAVA_HOME=/home/master/app /jdk1.8.0_212

             

       第二个:core-site.xml

              <!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->

              <property>

                     <name>fs.defaultFS</name>

                     <value>hdfs://master:9000/</value>

              </property>

              <!-- 指定hadoop运行时产生文件的存储目录 -->

              <property>

                     <name>hadoop.tmp.dir</name>

                     <value>/home/master/app/hadoop-2.9.2/data/</value>

           </property>

             

       第三个:hdfs-site.xml   hdfs-default.xml

              <!-- 指定HDFS副本的数量 -->

              <property>

                     <name>dfs.replication</name>

                     <value>1</value>

    </property>

             

       第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)

              mv mapred-site.xml.template mapred-site.xml

              vim mapred-site.xml

              <!-- 指定mr运行在yarn上 -->

              <property>

                     <name>mapreduce.framework.name</name>

                     <value>yarn</value>

    </property>

             

       第五个:yarn-site.xml

              <!-- 指定YARN的老大(ResourceManager)的地址 -->

              <property>

                     <name>yarn.resourcemanager.hostname</name>

                     <value>master</value>

    </property>

              <!-- reducer获取数据的方式,mapper产生的结果使用shuffle机制传给reducer -->

    <property>

                     <name>yarn.nodemanager.aux-services</name>

                     <value>mapreduce_shuffle</value>

     </property>

         

8.将hadoop添加到环境变量

              vim /etc/proflie

              export JAVA_HOME=/home/master/app/ jdk1.8.0_212

              export HADOOP_HOME=/home/master/app/hadoop-2.9.2

              export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

       source /etc/profile

      

9.格式化namenode(是对namenode进行初始化)

              hdfs namenode -format (hadoop namenode -format)

             

10.启动hadoop

              先启动HDFS

              sbin/start-dfs.sh

              再启动YARN

              sbin/start-yarn.sh

              遇到问题:

Starting namenodes on []

Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.

 

              首先检查配置是否正确,然后步行的话作如下配置

在etc/hadoop/core-site.xml中增加如下配置:

<property>

<name>fs.default.name</name>

<value>hdfs://master:9000/</value>

</property>

11.验证是否启动成功

              使用jps命令验证(查看进程)

              27408 NameNode

              28218 Jps

              27643 SecondaryNameNode

              28066 NodeManager

              27803 ResourceManager

              27512 DataNode

      

              http://192.168.71.101:50070 (HDFS管理界面)

              http://192.168.71.101:8088 (MR管理界面)

             

12.配置ssh免登陆

       #生成ssh免登陆密钥

       #进入到我的home目录

       cd ~/.ssh

 

       ssh-keygen -t rsa (四个回车)

       执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

       将公钥拷贝到要免登陆的机器上

       ssh-copy-id localhost

13.HDFS shell

       1.0查看帮助

              hadoop fs -help <cmd>

       1.1上传

              hadoop fs -put <linux上文件> <hdfs上的路径>(hdfs://master:9000/)

       1.2查看文件内容

              hadoop fs -cat <hdfs上的路径>

       1.3查看文件列表

              hadoop fs -ls /wordcount/

       1.4下载文件

              hadoop fs -get <hdfs上的路径> <linux上文件路径>

       1.5 建立目录

              Hadoop fs mkdir hdfs://master:9000/wordcount

14.使用hadoop自带的程序运行MapReduce

       hadoop jar hadoop-mapreduce-examples-2.9.2.jar pi 5 5

       pi表示计算圆周率 第一个5表示使用的map数量 第二个5表示每个map的取样数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 如果要在本地配置 Hadoop 的开发环境,你需要安装 Hadoop 并创建一个分布式集群。 安装 Hadoop 的方法取决于你使用的操作系统。你可以通过以下两种方式之一来安装 Hadoop: 1. 使用软件包管理器(例如 apt-get 或 yum): - 在 Ubuntu 中,使用以下命令安装 Hadoop: ``` sudo apt-get install hadoop ``` - 在 CentOS 中,使用以下命令安装 Hadoop: ``` sudo yum install hadoop ``` 2. 从源代码安装 Hadoop: - 下载 Hadoop 源代码: ``` wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz ``` - 解压缩 Hadoop 源代码: ``` tar -xzvf hadoop-3.3.0.tar.gz ``` 接下来,你需要创建一个分布式集群,这意味着你在单个机器上运行 Hadoop,但是其表现得像一个分布式集群。 首先,你需要配置 Hadoop 的配置文件(例如 hadoop-env.sh),然后启动 Hadoop。 在完成这些步骤后,你就可以使用 Hadoop 了! ### 回答2: Hadoop是大数据处理的常用工具之一,其分布式存储和处理数据的特点,使其越来越受到关注。而为了使用Hadoop,我们需要先配置好开发环境,包括Hadoop的安装和分布式集群搭建。 Hadoop的安装: Hadoop是基于Java开发的,所以首先需要安装Java。建议安装Java8或以上版本,并确保JAVA_HOME环境变量已经配置好。 接下来,需要下载Hadoop安装包并解压缩。建议使用Apache官方的二进制发行版本,也可以选择Cloudera或Hortonworks等第三方发行版本。解压后,在Hadoop的根目录下,需要进行一些配置。 分布式集群搭建: 分布式集群是在单台机器上搭建的模拟集群,可以方便地进行Hadoop的学习和开发。要搭建分布式集群,需要进行如下配置: 1. 配置Hadoop的配置文件:修改Hadoop的配置文件hadoop-env.sh,并将HADOOP_CONF_DIR、HADOOP_MAPRED_HOME、HADOOP_COMMON_HOME、HADOOP_HDFS_HOME环境变量设置为Hadoop的安装目录。 2. 配置HDFS文件系统:在Hadoop的conf目录下,创建一个新的文件夹hadoop_data,并在该目录下创建三个子目录:namenode、datanode和tmp。其中,namenode和datanode分别是HDFS的主节点和从节点,而tmp目录是用来存放临时文件的。 3. 启动Hadoop:通过执行start-all.sh脚本,可以启动所有的Hadoop进程。如果一切正常,就可以通过http://localhost:50070访问HDFS的文件浏览器,和http://localhost:8088访问资源管理器,查看Hadoop的运行状态。 这样,分布式Hadoop集群就搭建完成了。通过这个集群,可以进行各种Hadoop的开发操作,比如MapReduce程序的编写和执行等。当然,在实际应用中,还需要对Hadoop进行更加严格和复杂的配置和管理。 ### 回答3: Hadoop是一个开源的分布式计算框架,它能够对大规模的数据进行存储和处理,也因此得到了广泛的应用。如今Hadoop已成为大数据生态系统中的一个重要组成部分。为了能够使用Hadoop,我们需要先配置好开发环境。下面就让我们了解一下第二关:配置开发环境 - Hadoop安装与分布式集群搭建。 首先,我们需要先下载Hadoop,并安装Java环境。Hadoop支持多个版本,可以根据自己的需要进行选择。安装Java环境的方法也很简单,只需要到官网上下载对应的JDK,然后按照提示进行安装即可。 接下来,我们需要配置Hadoop的环境变量。在Linux系统下,直接在.bashrc文件中添加以下代码即可: export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin 其中,/path/to/hadoop改为实际的Hadoop安装路径。 当环境变量配置好后,我们就可以开始配置Hadoop分布式集群。 首先,我们需要编辑hadoop-env.sh文件,将JAVA_HOME设置为我们刚刚安装的JDK路径。 然后,我们需要配置core-site.xml文件。在该文件中,我们需要指定Hadoop所使用的文件系统类型,这里我们使用HDFS。同时,我们还需要指定Hadoop的namenode,即Hadoop的主节点。将以下代码添加到core-site.xml文件中: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 其中,localhost改为实际的主机名。 接下来,我们需要配置hdfs-site.xml文件。该文件用于配置Hadoop分布式文件系统(HDFS)。将以下代码添加到hdfs-site.xml文件中: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/path/to/hadoop/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/path/to/hadoop/data/dataNode</value> </property> </configuration> 其中,/path/to/hadoop/data/nameNode和/path/to/hadoop/data/dataNode改为实际的数据存储路径。 最后,我们需要配置mapred-site.xml文件。该文件用于配置MapReduce计算框架。将以下代码添加到mapred-site.xml文件中: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 以上就是配置Hadoop分布式集群的所有步骤。我们可以通过启动命令,启动Hadoop集群。运行$HADOOP_HOME/sbin/start-all.sh即可启动Hadoop分布式集群。最后,我们可以通过JPS命令查看Hadoop的各个组件是否启动成功。 总之,配置好Hadoop的开发环境后,我们才能更好地使用Hadoop进行数据处理。通过以上步骤,我们可以轻松搭建Hadoop分布式集群,并开始进行数据处理工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

富国老师软件设计师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值