HDFS
文章平均质量分 86
Meepoljd
热爱大数据和捯饬各种新奇玩意,立志要在运维工程师的路上稳步发展,并具备架构师的能力
展开
-
【HDFS】一次备NameNode宕机过久导致的生产事故
最近发生的一个临时故障,情况是一个启了HA的HDFS集群,在2023年9月份因为两台NameNode同时启动产生一些问题,所以当时将一台节点停止,一直没有启动,具体为什么当时有问题这个不太清楚,这次是唯一活动的NameNode节点因为硬件问题突然挂死了,需要把当初一直停止的节点拉起来做保证集群的服务可用,原创 2024-01-08 10:35:08 · 634 阅读 · 0 评论 -
【HDFS】DataNode启动异常的各种原因和处理方式
在生产环境中,无论遇到什么问题,只要和存储相关,不要轻易使用格式化类的命令,网上很多DN启动失败的教程就是直接让你format整个HDFS,然后跟你说生产环境亲测,很坑,最后!不要format!不要format!不要format!原创 2022-10-19 09:31:52 · 1077 阅读 · 0 评论 -
【HDFS】记一次由JN性能瓶颈导致的NN频繁宕机异常
某年某月某日开始,测试环境的NameNode开始频繁宕机,基本上是每天都会稳定触发此问题;第一次查的时候看到和JN通信发生超时,然后就宕机了,但是当时JN服务又是正常的,遂没太上心,重启完事,结果后面又继续出此问题,所以还是进行排查顺便记录一下...原创 2022-08-02 22:47:37 · 1059 阅读 · 1 评论 -
NameNode格式化——组件恢复,数据丢失
NameNode格式化——组件恢复,数据丢失前情提要过程记录准备工作停止HDFS进程删除数据删除日志和临时目录启动JournalNode服务格式化HDFS执行NameNode格式化恢复Standby NameNode启动Standby NameNode恢复依赖服务小结前情提要近段时间测试环境被研发整了一个特别离谱的事情,因为HDFS重启没启动起来,直接执行了format操作,大言不惭说的是百度这么说的,过了年以后我上环境看的时候,发现环境直接不能用了,然后启动也启动不起来,项目经理追着维护人员恢复环境,原创 2022-02-21 10:03:53 · 1978 阅读 · 0 评论 -
关于HDFS Balancer的一些小技巧
关于HDFS Balancer的一些小技巧前言正文原因分析Balancer工具做均衡带宽设置限定均衡范围参数调优结语前言使用HDFS的过程中,难免会出现数据不均衡的情况,直观表现就是有的服务器磁盘使用率高的吓人,有的服务器空闲的离谱;我在运维过程中也遇到很多这种情况,使用balancer工具做均衡也是总结了一些点,特意再次记录一下。正文原因分析对于HDFS来说,数据不均衡是个再正常不过的事情,就我所遇到的原因总结起来大概如下:组件部署导致:如NIFI等组件,同步数据至HDFS,若部署的节点同原创 2022-01-20 11:24:44 · 2825 阅读 · 2 评论