Hadoop集群

Hadoop集群

★ Hadoop集群搭建过程

集群环境:集群环境是指局域网中的机器,多台机器为了完成同一件事情而协作工作的一种工作模式。每台机器被称为一个节点。

 

把Hadoop进程安装到多台机器上,实现Hadoop的分布式安装。

 

分布式以虚拟机vmware的复制来克隆多台机器。

分布式集群中,对NameNode和SecondaryNameNode的要求比较高,对内存要求比较大。

 

★ 节点之间的免密码登录

1.重新生成ssh加密文件

hadoop0 hadoop1 hadoop2

ssh-keygen -t rsa

cat id_rsa.pub >> authorized_keys

 

在hadoop1,hadoop2上:

ssh-copy-id -i hadoop0

 

在hadoop0上把ssh中的authorized_keys 文件scp到hadoop1,hadoop2中

scp authorized_keys hadoop1:/root/.ssh

scp authorized_keys hadoop2:/root/.ssh

 

这样hadoop0 hadoop1 hadoop2中两两之间就可以免密码登录了

 

关于authorized_keys文件:

其中存放的是公钥文件,一台机器上保存有哪些机器的ssh公钥,这些机器就可以免密码登录到这台机器。

 

ssh的原理:

略。

 

2.在启用集群时,要删除原分布式节点上的logs和tmp文件,删除原来格式化HDFS时的元数据文件。然后再格式化hadoop namenode -format

 

3.关于conf/master    conf/slaves

master文件中保存的是SecondaryNameNode的节点

slaves文件中保存的是启动的是TaskTracker和DataNode的节点

 

4.在conf/core-site.xml中指定的是Namenode节点的位置

在conf/mapred-site.xml中指定的是JobTracker节点的位置

 

★ Haoop集群启动时的安全模式

安全模式是什么,集群在安全模式下干什么了?

当集群启动的时候,会首先进入到安全模式。安全模式是hadoop集群的一种保护方式。当系统处于安全模式时,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本率0.999,如图7-1

图7-1

我们的副本率0.6明显小于0.999,因此系统会自动的复制副本到其他dataNode,使得副本率不小于0.999。如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多于的3个副本。

总体来说,安全模式是hadoop的一种保护机制,用于保证集群中数据块的安全性的。

安全模式对我们有什么影响哪?

这时,不允许客户端进行任何修改文件的操作,包括上传文件、删除文件、重命名、创建文件夹等操作。比如,创建文件时,在源代码中就有对安全模式的判断,如图7-2

图7-2

当我们在安全模式下进行修改文件操作时,会报出如下错误,如图7-3

图7-3

正常情况下,安全模式会运行一段时间自动退出的。只需要我们稍等一会就可以了。到底等多长时间哪,我们可以通过50070端口查看安全模式退出的剩余时间,如图7-4。

图7-4

虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。

我们可以控制是否进入或者退出安全模式吗?

在命令行下是可以控制安全模式的进入、退出和查看的,

命令hadoop  dfsadmin  –safemode get 查看安全模式状态

命令hadoop  dfsadmin  –safemode enter 进入安全模式状态

命令hadoop  dfsadmin  –safemode leave 离开安全模式状态

操作如图7-5所示

图7-5

安全模式,是hadoop集群的一种保护机制,在启动时,最好是等待集群自动退出,然后再进行文件操作。

 

★ 动态增加一个节点

1:对要新增加的节点进行配置。包括jdkhosts ssh hadoop等

2:在主节点中conf/slave文件中增加该新节点的hostname

3:单独启动新节点的datanode和tasknode

4:在主节点执行脚本 hadoopdfsadmin -refreshNodes

5:通过web页面,50070端口查看或者通过hadoopdfsadmin -report查看最新的节点是否加载到集群。

6:均衡Block     ./bin/start-balancer.sh

 

★ 动态删除一个节点(未验证)

1.集群配置

   修改conf/hdfs-site.xml文件

 <property> 

   <name>dfs.hosts.exclude</name> 

   <value>/data/soft/hadoop/conf/excludes</value> 

   <description>Namesa file that contains a list of hosts that are  

   notpermitted to connect to the namenode. The full pathname of the  

   file mustbe specified.  If the value is empty, nohosts are  

   excluded.</description>

 </property>

2.定要下架的机器

dfs.hosts.exclude定义的文件内容为,每个需要下线的机器,一行一个。这个将阻止他们去连接Namenode。如:

 

hadoop7

 

3.强制重新加载配置

 

[root@hadoop5 ~]# hadoop dfsadmin  -refreshNodes 

它会在后台进行Block块的移动

 

4.关闭节点

等待刚刚的操作结束后,需要下架的机器就可以安全的关闭了。

 

[root@hadoop0 ~]# hadoop dfsadmin-report 

 

 

可以查看到现在集群上连接的节点

 

 

正在执行Decommission,会显示:

Decommission Status : Decommission in progress 

 

执行完毕后,会显示:

Decommission Status : Decommissioned 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值