Hadoop集群日常运维

最新推荐文章于 2024-08-25 22:41:12 发布

jediael_lu

最新推荐文章于 2024-08-25 22:41:12 发布

阅读量1.5w

点赞数

分类专栏： X.1大数据文章标签： hadoop 运维

本文链接：https://blog.csdn.net/jediael_lu/article/details/44006629

版权

本文介绍了Hadoop集群的日常运维，重点讲解了均衡器的角色，它负责保持数据块在DN间的均匀分布，并遵循复制策略。建议定期运行均衡器以优化集群状态。此外，还提到了datanode的块扫描器，该扫描器会周期性检查节点上的块，检测错误并通知namenode进行修复。默认扫描周期为三周，可以通过特定URL查看扫描报告。

摘要由CSDN通过智能技术生成

（一）备份namenode的元数据
namenode中的元数据非常重要，如丢失或者损坏，则整个系统无法使用。因此应该经常对元数据进行备份，最好是异地备份。
1、将元数据复制到远程站点
（1）以下代码将secondary namenode中的元数据复制到一个时间命名的目录下，然后通过scp命令远程发送到其它机器

#!/bin/bash
export dirname=/mnt/tmphadoop/dfs/namesecondary/current/`date +%y%m%d%H`
if [ ! -d ${dirname} ]
then
mkdir  ${dirname}
cp /mnt/tmphadoop/dfs/namesecondary/current/*  ${dirname}
fi
scp -r ${dirname} slave1:/mnt/namenode_backup/
rm -r ${dirname}

（2）配置crontab，定时执行此项工作
0 0,8,14,20 * * * bash /mnt/scripts/namenode_backup_script.sh

2、在远程站点中启动一个本地namenode守护进程，尝试加载这些备份文件，以确定是否已经进行了正确备份。

（二）数据备份
对于重要的数据，不能完全依赖HDFS，而是需要进行备份，注意以下几点
（1）尽量异地备份
（2）如果使用distcp备份至另一个hdfs集群，则不要使用同一版本的hadoop，避免hadoop自身导致数据出错。

（三）文件系统检查
定期在整个文件系统上运行HDFS的fsck工具，主动查找丢失或者损坏的块。
建议每天执行一次。

[jediael@master ~]$ hadoop fsck /
……省略输出（若有错误，则在此外出现，否则只会出现点，一个点表示一个文件）……
.........Status: HEALTHY
 Total size:    14466494870 B
 Total dirs:    502
 Total files:   1592 (Files currently being written: 2)
 Total blocks (validated):      1725 (avg. block size 8386373 B)
 Minimally replicated blocks:   1725 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       648 (37.565216 %)
 Mis-replic