hadoop集群搭建

最新推荐文章于 2024-04-27 23:53:24 发布

qq_37587216

最新推荐文章于 2024-04-27 23:53:24 发布

阅读量116

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_37587216/article/details/81064565

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

hadoop 版本： 2.9.1
集群搭建的工具：
1、开源：http://ambari.apache.org/team-list.html ambari是apache下面一个开源的hadoop集群管理工具
2、收费：https://www.cloudera.com/ cloudera manager提供了一个免费的和一个企业使用的版本

一、文件下载解压
(1)编译好的 345M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz
（2）源码 37M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1-src.tar.gz
二、配置ssh免登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 生成ssh公密与私密
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 把公密写进认证文件中
chmod 0600 ~/.ssh/authorized_keys 修改文件权限
把所有机器的id_rsa.pub都写到一个文件夹中，再拷贝到每个文件中

三、关闭防火墙 ----> systemctl disable firewalld
SELinux Linux的一个扩张强制访问控制安全模块 vi /etc/sysconfig/selinux SELINUX=disabled
修改hostname vi /etc/hostname
修改hosts vi /etc/hosts 把每个机器的主机名与对应ip地址写进每个机器中（如果有DNS服务器，这步可以省略）
设置 jdk环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
export PATH=$JAVA_HOME/bin:$PATH
设置 hadoop环境变量
export HADOOP_HOME=/opt/hadoop-2.9.1
export PATH=$HADOOP_HOME/bin:$PATH
四、配置
（1）hadoop-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（2）yarn-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（3）mapreduce-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（4）core-site.xml (name node) 文件系统的主机，端口临时文件夹的位置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-yarn-117.dragon.org:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.9.1/date/tmp</value>
</property>
</configuration>
（5）hdfs-site.xml (name node) hdfs 的复本数量 ---->如果需要修改复本数，可以直接修改，重启生效，不需要初始化
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
（6）yarn-site.xml (name node) yarn集群配置
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
（7）mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
五、启动
1）格式化读取配置信息产生一个Cluster ID:
bin/hdfs namenode -format [-clusterid yzl-hadoop]
2）启动 namenode datanode
sbin/hadoop start namenode
sbin/hadoop start datanode
六、操作 hdfs 文件系统（）
1）在文件系统的根目录下面创建文件夹
bin/hdfs dfs -mkdir /data01
2）查看创建的文件夹
bin/hdfs dfs -ls /
3）查看文件
bin/hdfs dfs -cat 或 -text 或 -tail /data01/test.txt
七、日志
.log 记录大部分应用程序的日志信息
.out 日志量很少
八、创建集群
配置ssh免登录，core-site.xml !!!注：如果在启动集群之前已经在master节点上把 datanode启动过了，则如果想集群在master节点上无namenode则需要hdfs namenode -format
九、namenode目录
单独放一块安全的目录，可以设置多个目录，用逗号分开
hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/mn1/disk1,/mn2/disk2,nfs://</value>
</property>
十、用python操作hdfs，python安装包 pyhdfs
十一、hadoop RFC框架
十二、配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-yarn-117</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置 mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn-env.sh java环境变量

qq_37587216

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop集群搭建

hadoop 版本： 2.9.1集群搭建的工具： 1、开源：http://ambari.apache.org/team-list.html 2、收费：https://www.cloudera.com/一、文件下载解压 (1)编译好的 345M wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/...
复制链接

扫一扫