集群架构/运维/监控/告警
文章平均质量分 86
本专栏分享大数据集群架构,包括apache hadoop3上千节点开源版本集群搭建运维,cdh集群架构管理,集群运维管理,j集群监控告警,集群安全管理,集群运维经验分享
涤生大数据
在职阿里,美团,京东,字节大数据技术专家,擅长大数据开发,集群架构/运维,爱好python数据分析/爬虫,欢迎一起交流
展开
-
大数据实战:Ambari开发手册之OpenTSDB快速集成技巧
用于描述这个服务,服务的组件和管理脚本用于执行命令。一个组件的服务可以是MASTER,SLAVE或CLIENT类别。这个<category>告诉Ambari默认命令应该用于管理和监控组件。为每个组件指定<commandScript >执行命令时使用。有一个默认命令定义组件必须支持。原创 2024-02-01 16:30:00 · 988 阅读 · 0 评论 -
解析线上HBase集群CPU飙高的原因与解决方案
jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息:所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的执行路径和可能的问题。死锁检测:jstack命令可以检测并输出JVM中的死锁情况。它会显示死锁的线程以及导致死锁的资源。原创 2024-01-29 17:00:00 · 2005 阅读 · 0 评论 -
大数据平台实践之CDH6.2.1+spark3.3.0+kyuubi-1.6.0
前言:关于kyuubi的原理和功能这里不做详细的介绍,感兴趣的同学可以直通官网:https://kyuubi.readthedocs.io/en/v1.7.1-rc0/index.html。原创 2023-11-22 15:30:00 · 387 阅读 · 0 评论 -
MapReduce任务个数如何影响执行效率?性能优化从这里做起
在我们的整个验证过程中, Hive中的SQL演示,在日常的数据分析工作中是很常见的。同样的SQL,同样规模数据,为啥运行时间不一样?可能并不是因为你写的SQL有问题,不妨思考下,会不会是底层存储的问题所以,课后作业来了:HDFS 小文件会带来哪些影响?原创 2023-10-17 20:15:00 · 357 阅读 · 0 评论 -
涤生大数据教学集群的首次运维现场复现
基于以上wiki服务的报错,一开始怀疑是网络的问题,首先查看了阿里云的网络监控,再次查看了我们的vpn服务监控(因为我们在集群安全防护上,是将所有的主机服务都隐藏在阿里云内网的,学员的对教学环境资源的访问都是需要通过VPN认证登录)还有其他内部服务的访问也都是没有问题的,这足以说明网络上是健康的。),具体查看磁盘的存储文件,发现其他的日志文件也占据不小的存储空间,(简直就是看到了救命稻草),删除此部分文件,应该可以恢复磁盘的正常读写,进而将整体服务拉起来,后面也就迎刃而解了。所有服务恢复正常运行。原创 2023-07-20 09:15:00 · 455 阅读 · 1 评论 -
运维实战100:CDH5.16.2升级至CDH6.3.2
本期来分享一个cdh企业运维实战案例,将现有集群CDH版本由5.x版本升级为6.3.x版本。原创 2022-12-07 07:00:00 · 1663 阅读 · 1 评论 -
CDH启用kerberos 高可用运维实战
在前的文章中介绍过《CDH集成的kerberos迁移实战》,由此也考虑到kerberos单节点可能引发的线上事故,所有考虑到把线上kerberos服务启用高可用。原创 2022-11-25 06:30:00 · 1239 阅读 · 1 评论 -
如何优雅部署OpenStack私有云II--异常处理记录
Kolla虽然已经实现了自动化,但是,安装过程依旧折腾得死去活来。特地记录了当时处理各种异常的记录,希望能够帮助到大家。原创 2022-11-21 07:51:48 · 1236 阅读 · 1 评论 -
1000+节点的cdh集群主服务迁移全过程
由于种种原因,线上cdh集群的管理服务Cloudera Manager所在主机不能正常使用,Cloudera Manager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。原创 2022-08-26 13:15:51 · 2099 阅读 · 0 评论 -
集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e
大数据集群运维:all datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e原创 2021-12-14 15:47:28 · 5160 阅读 · 3 评论 -
hive moving data报错,unable to move source...,yarn显示任务执行成功
1.报错情况有个小伙伴hive任务报错,moving data时,报错如下Failded with exception:unable to move source hdfs://...........2.问题排查这种情况一般跟任务没有关系了,说明hive任务已经执行成功了。因为默认hive,spark任务数据先写到一个临时目录,等各个节点的数据都写完整以后,校验没问题了,在move到表的hdfs路径下(所谓move其实就是重命令),这个过程报错,说明跟hdfs有关系,跟yarn,hiv.原创 2021-11-15 15:36:13 · 6465 阅读 · 5 评论 -
大数据运维:datanode启动后挂了Initialization failed for Block pool <registering>
1.案发现场还原 datanode节点因为坏盘,机器卡死掉线,datanode退役。把坏盘目录去掉后,重启datanode后出现一会dn自动挂掉的情况。 查看日志报错如下:1月 8, 上午10点26:12.689 WARN org.apache.hadoop.hdfs.server.common.Storage Failed to analyze storage directories for block pool BP-465426754-10.5.32.151-1456251...原创 2021-11-08 12:13:37 · 6190 阅读 · 2 评论 -
上千生产节点的JournalNode下线,以及上线异常问题解决
背景:集群规模上千节点,5台JournalNode节点,现在因为需要维修,下线其中一台JournalNode进行维修。1.JournalNode下线 在namenode的HA机制下,两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。JournalNode属于轻量级的应用,可以同样在运行JournalNode节点上运行datanode,nodemanager等角色,不影响使用的。根据hadoop官网的描述:必须至少有3个JournalNode守...原创 2021-05-22 23:35:24 · 3015 阅读 · 7 评论 -
超详细版企业离线部署CDH6.10集群与配置使用
进入大数据行业数载,也从一个开发小白走到了今天,期间也历经过一摸番着石头过河的探索,到如今的胸有点墨;玩过demo,使用过负责过上千节点的大数据集群开发与使用;被人面虐过,也面挂过很多人;如今,想趁着自己心中有火,眼里有光的年纪,把自己的一点心得与经验分享大数据行业的爱好者。也希望有助于后面的童鞋少走弯路,也欢迎大家私信交流。持续每周更新。死磕大数据系列1.死磕大数据系列将从企业上千节点集群的搭建(包括cdh集群,以及升级后apache hadoop3集群),性能优化,牵扯到的组件包括...原创 2021-06-11 10:51:55 · 7068 阅读 · 5 评论