
集群架构/运维/监控/告警
文章平均质量分 87
本专栏分享大数据集群架构,包括apache hadoop3上千节点开源版本集群搭建运维,cdh集群架构管理,集群运维管理,j集群监控告警,集群安全管理,集群运维经验分享
涤生大数据
在职阿里,美团,京东,字节大数据技术专家,擅长大数据开发,集群架构/运维,爱好python数据分析/爬虫,
加 v: dsflink 可免费转行评估,职业规划,校招规划,大数据进阶指导,简历把脉
欢迎一起交流
展开
-
简化K8S部署流程:通过Apisix实现蓝绿发布策略详解(上)
本次主题主要目的是为大家讲解蓝绿发布,但是发现文档和内容太长了,对此将文档拆分成了两部分,视频拆分成了好几部分,这样大家刷起来没疲劳感。 第一部分《apisix + argorollout 实现蓝绿发布I-使用apisix发布应用》,主要内容为:原创 2025-04-22 23:10:20 · 739 阅读 · 0 评论 -
大数据运维实战之YARN任务内存泄露排查实战:从节点掉线到精准定位的完整指南
最近某大数据集群频繁出现节点掉线事故,物理内存监控持续爆红。运维人员发现当节点内存使用率达到95%以上时,机器会进入不可响应状态,最终导致服务中断。这种"内存雪崩"现象往往由单个异常任务引发,如何快速定位问题作业成为当务之急。原创 2025-03-23 16:56:50 · 563 阅读 · 0 评论 -
大数据运维必看:跨数据中心的集群迁移详细步骤与技巧分享
因云平台升级,需要将A机房中的大数据平台迁移到B机房中。AB属于同城市,不同数据中心机房。主要是因为A机房底层物理空间满了,没办法加机器了,但是大数据集群又需要扩容了,所以才搞集群迁移。不然真心不想做的。原创 2025-03-15 16:12:16 · 1097 阅读 · 0 评论 -
大数据运维实战:通过自定义Hooks优化Spark Catalyst,提升Spark性能
Apache Spark是大数据处理领域最常用的计算引擎之一。其强大的可扩展性和丰富的API使其在各种场景中得到了广泛应用。除了常见的数据源扩展,Spark SQL的Catalyst引擎也提供了丰富的扩展点,允许用户根据自己的需求定制解析、分析、优化和物理执行策略。本文将深入探讨在实际的生产环境中如何借助Spark Catalyst的拓展功能,实现自定义的 hooks 功能。原创 2025-02-21 17:28:29 · 1295 阅读 · 0 评论 -
大数据实战:Ambari开发手册之OpenTSDB快速集成技巧
用于描述这个服务,服务的组件和管理脚本用于执行命令。一个组件的服务可以是MASTER,SLAVE或CLIENT类别。这个<category>告诉Ambari默认命令应该用于管理和监控组件。为每个组件指定<commandScript >执行命令时使用。有一个默认命令定义组件必须支持。原创 2024-02-01 16:30:00 · 1147 阅读 · 0 评论 -
解析线上HBase集群CPU飙高的原因与解决方案
jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息:所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的执行路径和可能的问题。死锁检测:jstack命令可以检测并输出JVM中的死锁情况。它会显示死锁的线程以及导致死锁的资源。原创 2024-01-29 17:00:00 · 2279 阅读 · 0 评论 -
大数据平台实践之CDH6.2.1+spark3.3.0+kyuubi-1.6.0
前言:关于kyuubi的原理和功能这里不做详细的介绍,感兴趣的同学可以直通官网:https://kyuubi.readthedocs.io/en/v1.7.1-rc0/index.html。原创 2023-11-22 15:30:00 · 614 阅读 · 0 评论 -
MapReduce任务个数如何影响执行效率?性能优化从这里做起
在我们的整个验证过程中, Hive中的SQL演示,在日常的数据分析工作中是很常见的。同样的SQL,同样规模数据,为啥运行时间不一样?可能并不是因为你写的SQL有问题,不妨思考下,会不会是底层存储的问题所以,课后作业来了:HDFS 小文件会带来哪些影响?原创 2023-10-17 20:15:00 · 535 阅读 · 0 评论 -
涤生大数据教学集群的首次运维现场复现
基于以上wiki服务的报错,一开始怀疑是网络的问题,首先查看了阿里云的网络监控,再次查看了我们的vpn服务监控(因为我们在集群安全防护上,是将所有的主机服务都隐藏在阿里云内网的,学员的对教学环境资源的访问都是需要通过VPN认证登录)还有其他内部服务的访问也都是没有问题的,这足以说明网络上是健康的。),具体查看磁盘的存储文件,发现其他的日志文件也占据不小的存储空间,(简直就是看到了救命稻草),删除此部分文件,应该可以恢复磁盘的正常读写,进而将整体服务拉起来,后面也就迎刃而解了。所有服务恢复正常运行。原创 2023-07-20 09:15:00 · 570 阅读 · 1 评论 -
运维实战100:CDH5.16.2升级至CDH6.3.2
本期来分享一个cdh企业运维实战案例,将现有集群CDH版本由5.x版本升级为6.3.x版本。原创 2022-12-07 07:00:00 · 1833 阅读 · 1 评论 -
CDH启用kerberos 高可用运维实战
在前的文章中介绍过《CDH集成的kerberos迁移实战》,由此也考虑到kerberos单节点可能引发的线上事故,所有考虑到把线上kerberos服务启用高可用。原创 2022-11-25 06:30:00 · 1390 阅读 · 1 评论 -
如何优雅部署OpenStack私有云II--异常处理记录
Kolla虽然已经实现了自动化,但是,安装过程依旧折腾得死去活来。特地记录了当时处理各种异常的记录,希望能够帮助到大家。原创 2022-11-21 07:51:48 · 1400 阅读 · 1 评论 -
1000+节点的cdh集群主服务迁移全过程
由于种种原因,线上cdh集群的管理服务Cloudera Manager所在主机不能正常使用,Cloudera Manager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。原创 2022-08-26 13:15:51 · 2449 阅读 · 0 评论 -
集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e
大数据集群运维:all datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e原创 2021-12-14 15:47:28 · 5526 阅读 · 3 评论 -
hive moving data报错,unable to move source...,yarn显示任务执行成功
1.报错情况有个小伙伴hive任务报错,moving data时,报错如下Failded with exception:unable to move source hdfs://...........2.问题排查这种情况一般跟任务没有关系了,说明hive任务已经执行成功了。因为默认hive,spark任务数据先写到一个临时目录,等各个节点的数据都写完整以后,校验没问题了,在move到表的hdfs路径下(所谓move其实就是重命令),这个过程报错,说明跟hdfs有关系,跟yarn,hiv.原创 2021-11-15 15:36:13 · 6817 阅读 · 5 评论 -
大数据运维:datanode启动后挂了Initialization failed for Block pool <registering>
1.案发现场还原 datanode节点因为坏盘,机器卡死掉线,datanode退役。把坏盘目录去掉后,重启datanode后出现一会dn自动挂掉的情况。 查看日志报错如下:1月 8, 上午10点26:12.689 WARN org.apache.hadoop.hdfs.server.common.Storage Failed to analyze storage directories for block pool BP-465426754-10.5.32.151-1456251...原创 2021-11-08 12:13:37 · 6490 阅读 · 2 评论 -
超详细版企业离线部署CDH6.10集群与配置使用
进入大数据行业数载,也从一个开发小白走到了今天,期间也历经过一摸番着石头过河的探索,到如今的胸有点墨;玩过demo,使用过负责过上千节点的大数据集群开发与使用;被人面虐过,也面挂过很多人;如今,想趁着自己心中有火,眼里有光的年纪,把自己的一点心得与经验分享大数据行业的爱好者。也希望有助于后面的童鞋少走弯路,也欢迎大家私信交流。持续每周更新。死磕大数据系列1.死磕大数据系列将从企业上千节点集群的搭建(包括cdh集群,以及升级后apache hadoop3集群),性能优化,牵扯到的组件包括...原创 2021-06-11 10:51:55 · 7355 阅读 · 6 评论 -
上千生产节点的JournalNode下线,以及上线异常问题解决
背景:集群规模上千节点,5台JournalNode节点,现在因为需要维修,下线其中一台JournalNode进行维修。1.JournalNode下线 在namenode的HA机制下,两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。JournalNode属于轻量级的应用,可以同样在运行JournalNode节点上运行datanode,nodemanager等角色,不影响使用的。根据hadoop官网的描述:必须至少有3个JournalNode守...原创 2021-05-22 23:35:24 · 3279 阅读 · 7 评论