Hadoop集群日常运维

本文介绍了Hadoop集群的日常运维,重点讲解了均衡器的角色,它负责保持数据块在DN间的均匀分布,并遵循复制策略。建议定期运行均衡器以优化集群状态。此外,还提到了datanode的块扫描器,该扫描器会周期性检查节点上的块,检测错误并通知namenode进行修复。默认扫描周期为三周,可以通过特定URL查看扫描报告。
摘要由CSDN通过智能技术生成

(一)备份namenode的元数据
namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。
1、将元数据复制到远程站点
(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器
#!/bin/bash
export dirname=/mnt/tmphadoop/dfs/namesecondary/current/`date +%y%m%d%H`
if [ ! -d ${dirname} ]
then
mkdir  ${dirname}
cp /mnt/tmphadoop/dfs/namesecondary/current/*  ${dirname}
fi
scp -r ${dirname} slave1:/mnt/namenode_backup/
rm -r ${dirname}
(2)配置crontab,定时执行此项工作
0 0,8,14,20 * * * bash /mnt/scripts/namenode_backup_script.sh

2、在远程站点中启动一个本地namenode守护进程,尝试加载这些备份文件,以确定是否已经进行了正确备份。

(二)数据备份
对于重要的数据,不能完全依赖HDFS,而是需要进行备份,注意以下几点
(1)尽量异地备份
(2)如果使用distcp备份至另一个hdfs集群,则不要使用同一版本的hadoop,避免hadoop自身导致数据出错。

(三)文件系统检查
定期在整个文件系统上运行HDFS的fsck工具,主动查找丢失或者损坏的块。
建议每天执行一次。
[jediael@master ~]$ hadoop fsck /
……省略输出(若有错误,则在此外出现,否则只会出现点,一个点表示一个文件)……
.........Status: HEALTHY
 Total size:    14466494870 B
 Total dirs:    502
 Total files:   1592 (Files currently being written: 2)
 Total blocks (validated):      1725 (avg. block size 8386373 B)
 Minimally replicated blocks:   1725 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       648 (37.565216 %)
 Mis-replic
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值