hadoop集群搭建

hadoop 版本: 2.9.1
集群搭建的工具:
1、开源:http://ambari.apache.org/team-list.html     ambari是apache下面一个开源的hadoop集群管理工具
2、收费:https://www.cloudera.com/        cloudera manager提供了一个免费的和一个企业使用的版本


一、文件下载解压
(1)编译好的  345M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz
(2)源码  37M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1-src.tar.gz   
二、配置ssh免登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa       生成ssh公密与私密
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  把公密写进认证文件中
chmod 0600 ~/.ssh/authorized_keys   修改文件权限
把所有机器的id_rsa.pub都写到一个文件夹中,再拷贝到每个文件中

三、关闭防火墙   ---->  systemctl disable firewalld
SELinux    Linux的一个扩张强制访问控制安全模块     vi /etc/sysconfig/selinux   SELINUX=disabled
修改hostname    vi /etc/hostname
修改hosts       vi /etc/hosts       把每个机器的主机名与对应ip地址写进每个机器中(如果有DNS服务器,这步可以省略)
设置 jdk环境变量 
export    JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
export    PATH=$JAVA_HOME/bin:$PATH
设置 hadoop环境变量
export  HADOOP_HOME=/opt/hadoop-2.9.1
export  PATH=$HADOOP_HOME/bin:$PATH
四、配置 
(1)hadoop-env.sh   (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(2)yarn-env.sh (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(3)mapreduce-env.sh (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(4)core-site.xml (name node)   文件系统的主机,端口    临时文件夹的位置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-yarn-117.dragon.org:9000</value>
</property>


<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.9.1/date/tmp</value>
</property>
</configuration>
(5)hdfs-site.xml (name node)    hdfs 的复本数量  ---->如果需要修改复本数,可以直接修改,重启生效,不需要初始化
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(6)yarn-site.xml     (name node) yarn集群配置
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(7)mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
五、启动
1)格式化   读取配置信息    产生一个Cluster ID:
bin/hdfs namenode -format   [-clusterid yzl-hadoop]
2)启动 namenode datanode
sbin/hadoop start namenode
sbin/hadoop start datanode
六、操作 hdfs 文件系统 ()
1)在文件系统的根目录下面创建文件夹
bin/hdfs dfs -mkdir /data01
2)查看创建的文件夹
bin/hdfs dfs -ls /
3)查看文件
bin/hdfs dfs -cat 或 -text 或 -tail /data01/test.txt
七、日志
.log   记录大部分应用程序的日志信息
.out   日志量很少
八、创建集群
配置ssh免登录,core-site.xml    !!!注:如果在启动集群之前已经在master节点上把 datanode启动过了,则如果想集群在master节点上无namenode则需要hdfs namenode -format
九、namenode目录 
单独放一块安全的目录,可以设置多个目录,用逗号分开
hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/mn1/disk1,/mn2/disk2,nfs://</value>
</property>
十、用python操作hdfs,python安装包 pyhdfs
十一、hadoop RFC框架
十二、配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-yarn-117</value>
</property>


<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置 mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn-env.sh java环境变量



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值