大数据
文章平均质量分 72
卢说
大数据运维技术博客 | 公众号:Hadoop集群运维
展开
-
记一次 Flink 作业启动缓慢
应用发现,Hadoop集群的hdfs较之前更加缓慢,且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他,推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业,发现有一个过程卡了五分钟。原创 2024-02-20 15:59:45 · 700 阅读 · 0 评论 -
记一次Clickhouse 复制表同步延迟排查
我们知道ck数据的更新操作是由zk负责复制日志,其他节点读取日志然后从对应的节点进行更新的。所以,基本可以断定是因为但是ck节点负载太高导致的副本之间的数据同步延迟,因为ck是异步复制,对于实时性要求很高的业务,可选择读写使用同一个节点规避这个问题。数据从集群中一个节点写入之后,其他两个节点无法及时查询到数据,等了几分钟。操作,这里注意Ck副本节点会直接去主副本节点下载数据,而不是从zk下载。另外,ck的写节点在这段时间内一直有大量的 Too many parts (302) 异常,一直持续了8分钟。原创 2023-10-20 16:18:46 · 2069 阅读 · 0 评论 -
freeipa server副本同步中断,两主节点数据不一致
也就是说hadoop-180-98.testhadoop.com节点数据更新所需要的数据在changelog内被删除了(具体为什么被删除了,现在已经没有日志可以查出来),如果错误一直存在,需要重新初始化这个副本。另外直观的现象就是,从A freeipa 节点ui上创建的账号同步不到B上,B创建的账号可以同步到A。先对另外一个副本进行数据备份ipa-backup。然后re-initialize ,需要输入ldap的密码。原创 2023-10-20 15:56:56 · 331 阅读 · 0 评论 -
Hadoop集群主节点迁移
主要目的是实现异地容灾原创 2023-07-26 10:25:40 · 406 阅读 · 0 评论 -
Ranger集成Solr
Ranger集成Solr原创 2022-12-09 16:11:44 · 907 阅读 · 5 评论 -
yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent
yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent原创 2022-11-29 10:28:05 · 436 阅读 · 0 评论 -
一种分析HDFS文件变化及小文件分布情况的方法
文档编写目的目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上节奏,我们必须控制成本,让有限的资源发挥大数据的极致功能。本文介绍如何去分析hdfs上的文件变化情况,以及老生常谈的小文件的监控情况的一种实现方式。实现方式说明本次分析方案有两种:利用hdfs的api文档,通过hdfs实例的listStatus方法递归出hdfs上所有的文件及目录的具体情况,包括path、ower、size等重要属性转载 2021-01-29 22:48:27 · 599 阅读 · 0 评论 -
什么是大数据处理中的Lambda架构和Kappa架构
大数据处理中的Lambda架构和Kappa架构本文转载至:https://www.cnblogs.com/xiaodf/p/11642555.html,已获得原作者许可。首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。转载 2020-12-05 16:52:34 · 453 阅读 · 0 评论