hadoop学习笔记之hadoop集群安装配置

安装

从hadoop官网下载hadoop安装包,解压到安装目录,安装目录最好在用户目录下,因为在用户目录下当前用户拥有直接读写权限,不用sudo也不会报权限错误,而后配置环境变量
下载地址:http://hadoop.apache.org/releases.html
官方安装文档:
http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/ClusterSetup.html

非安全模式配置

1.配置文件说明

hadoop配置文件在etc/hadoop/目录下,包含两种类型

默认配置文件:
core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml

自定义配置文件:
core-site.xml, hdfs-site.xml,yarn-site.xml and mapred-site.xml

自定义配置文件优先级高于默认配置文件,直接配置自定义文件就可以

2.守护进程说明

这里写图片描述
上图对应守护进程配置环境变量,根据需要配置,环境变量配置文件(etc/hadoop目录下):hadoop-env.sh mapred-env.sh yarn-env.sh

JAVA_HOME:jdk安装位置(必要最简化配置)
HADOOP_PID_DIR:Hadoop进程id存放文件目录,可自定义
HADOOP_LOG_DIR:Hadoop日志存放目录,可自定义

export JAVA_HOME=/home/user/hadoop/jdk1.8.0_121
# Where log files are stored.  $HADOOP_HOME/logs by default.
export HADOOP_PID_DIR=/home/user/hadoop/hadoop-2.7.3/logs
export HADOOP_LOG_DIR=/home/user/hadoop/hadoop-2.7.3/logs

此外在log4j.properties中也有日志存储目录,不知道两者是否关联,如果上述日志存储目录配置不可用,可在log4j中尝试配置

配置site文件

1.core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/user/hadoop/hadoop-2.7.3/tmp</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

2.hdfs-site.xml

    <property> 
    <name>dfs.namenode.name.dir</name> 
    <value>/home/user/hadoop-2.7.3/dfs/name</value> 
    </property>
    <property> 
    <name>dfs.datanode.data.dir</name> 
    <value>/home/user/hadoop-2.7.3/dfs/data</value> 
    </property> 
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
</configuration>

3.yarn-site.xml

master为主机名,需要在/etc/hostname和/etc/hosts中配置

<configuration>
    <property>
    <description>The hostname of the RM.</description>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4.mapred-site.xml

<configuration> 
  <property> 
  <name>mapreduce.framework.name</name> 
  <value>Yarn</value> 
  </property> 
 </configuration>

启动服务

1.初次启动前初始化

hdfs namenode -format <cluster_name>

2.启动服务

start-all.sh

3.测试安装是否成功

这里写图片描述

访问http://localhost:50070 http://localhost:8088
若出现管理界面则成功

分布式集群配置

1.在hosts文件中添加集群机器hostname和ip对应关系及配置slaves文件

192.168.241.20 master
192.168.241.30 node

在hadoop配置文件目录(${HADOOP_HOME}/etc/hadoop)下配置slaves文件,添加两者hostname

master
node

2.复制虚拟机系统,并修改网络配置和hostname

将虚拟机系统文件夹复制一份到文件夹下并用WMware WorkStation打开,并配置网络,ip设置为192.168.241.30
参考:http://blog.csdn.net/flushest/article/details/58702349中网络配置这一块内容

网络配置之后需要测试一下网络是否畅通

sudo gedit /etc/hostname

将hostname修改为node

3.在master主机上启动hadoop服务

start-all.sh #已经过时,不过还可以用
或者
start-hdfs.sh & start-yarn.sh

4.测试集群是否部署成功

在master主机上,会启动如下进程:
这里写图片描述
在node主机上,只会启动NameNode、JPS、DataNode三个进程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,可用于大数据的存储和处理。它采用了分布式文件系统(HDFS)和分布式计算框架(MapReduce),能够将大数据分割成小的数据块,并在集群中的多台计算机上并行处理这些数据块。 HDFS是Hadoop的分布式文件系统,它将大文件切分为多个数据块,并将这些数据块存储在集群中的多个计算机上。HDFS使用主从架构,其中NameNode负责管理文件系统的元数据,而多个DataNode负责实际存储数据。HDFS具有高容错性,能够自动复制数据块以保证数据的可靠性。 MapReduce是Hadoop的分布式计算框架,它通过将计算任务划分为多个Map和Reduce阶段来进行并行计算。Map阶段将输入数据切分为多个独立的小任务,并在集群中的多个计算机上并行执行。Reduce阶段将Map阶段的输出合并并进行聚合计算。MapReduce具有自动并行化、容错性和可扩展性等优点,能够高效地处理大规模数据集。 在学习Hadoop时,首先要了解Hadoop的核心组件,包括HDFS和MapReduce。然后,需要学习Hadoop的架构和工作原理,理解Hadoop如何实现分布式存储和计算。接下来,需要学习Hadoop安装配置,包括在单机和集群环境下的安装配置过程。此外,还需要学习Hadoop的命令行工具和管理工具,以及Hadoop的API和编程模型。 在实际使用Hadoop时,需要掌握Hadoop的常用操作和管理技巧,如如何上传和下载文件、如何执行MapReduce作业、如何监控和管理Hadoop集群等。同时,需要学习Hadoop的优化技术和调优方法,以提高Hadoop集群的性能和效率。 总之,对于Hadoop学习,除了理解其基础知识和工作原理外,还需要熟悉其常用操作和管理技巧,以及灵活运用Hadoop来解决实际的大数据问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值