![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 72
卢说
大数据运维技术博客 | 公众号:Hadoop集群运维
展开
-
记一次 Flink 作业启动缓慢
应用发现,Hadoop集群的hdfs较之前更加缓慢,且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他,推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业,发现有一个过程卡了五分钟。原创 2024-02-20 15:59:45 · 675 阅读 · 0 评论 -
freeipa server副本同步中断,两主节点数据不一致
也就是说hadoop-180-98.testhadoop.com节点数据更新所需要的数据在changelog内被删除了(具体为什么被删除了,现在已经没有日志可以查出来),如果错误一直存在,需要重新初始化这个副本。另外直观的现象就是,从A freeipa 节点ui上创建的账号同步不到B上,B创建的账号可以同步到A。先对另外一个副本进行数据备份ipa-backup。然后re-initialize ,需要输入ldap的密码。原创 2023-10-20 15:56:56 · 309 阅读 · 0 评论 -
Hadoop集群主节点迁移
主要目的是实现异地容灾原创 2023-07-26 10:25:40 · 394 阅读 · 0 评论 -
Ranger集成Solr
Ranger集成Solr原创 2022-12-09 16:11:44 · 856 阅读 · 5 评论 -
yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent
yarn.scheduler.capacity..user-limit-factor vs yarn.scheduler.capacity..minimum-user-limit-percent原创 2022-11-29 10:28:05 · 408 阅读 · 0 评论 -
HDP3安装遇到的一些新坑
HDP3安装遇到的一些新坑1.Ambari自动生成的repo里源的url地址为空表现出的现象为Ambari到了安装组件那一步一直过不去,前台报错日志提示ambari和hdp的repo url都为null,无有效的repo,图忘记截了。于是,我们登录到主机查看HDP.repo文件,发现base_url确实是个空值,然后再登录至ambari数据库发现数据库里面base_url字段也是空的。HDP.repo内的空值应该是来着于数据库的base_url字段的空值,于是我们只需要给数据库该字段赋值一个值就可以了。原创 2021-04-11 14:32:14 · 998 阅读 · 2 评论 -
一种分析HDFS文件变化及小文件分布情况的方法
文档编写目的目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上节奏,我们必须控制成本,让有限的资源发挥大数据的极致功能。本文介绍如何去分析hdfs上的文件变化情况,以及老生常谈的小文件的监控情况的一种实现方式。实现方式说明本次分析方案有两种:利用hdfs的api文档,通过hdfs实例的listStatus方法递归出hdfs上所有的文件及目录的具体情况,包括path、ower、size等重要属性转载 2021-01-29 22:48:27 · 577 阅读 · 0 评论 -
什么是大数据处理中的Lambda架构和Kappa架构
大数据处理中的Lambda架构和Kappa架构本文转载至:https://www.cnblogs.com/xiaodf/p/11642555.html,已获得原作者许可。首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。转载 2020-12-05 16:52:34 · 445 阅读 · 0 评论 -
如何将Hive元数据库从PostgreSQL迁移至MySQL
在准备HDPCA 考试时,听闻Hive底层数据库使用的是pg,于是在测试环境配置了pg数据库作为其底层数据库,之后考虑到需要统一ambari、ranger数据库到MySQL,便想要测试一下如果Hive内本身存在业务数据时,需要如何将其元数据从pg迁移至MySQL。其实只是想折腾一下,如何将Hive底层数据库做个迁移,这里记录一下。首先,我们准备一下测试数据:create table testtable (id int, name string,age int, tel string) ROW FORM原创 2020-11-08 23:31:22 · 567 阅读 · 0 评论 -
记一次Linux主机内存脏数据引发的NameNode故障,主机提示echo 0 > /proc/sys/kernel/hung_task_timeout_secs。
记一次Linux主机内存脏数据引发的NameNode故障,主机提示echo 0 > /proc/sys/kernel/hung_task_timeout_secs。内存脏数据是什么,如何调优。原创 2020-10-18 20:31:58 · 7082 阅读 · 0 评论 -
记一次Hadoop集群数据上传缓慢案例分析
本文为博主原创文章,转载需获取博主授权。项目场景手上管理的其中一个Hadoop集群,承接着大量的数据流量,一直以来运行平稳,最近突然发现集群有时会出现MR作业运行缓慢,put文件至HDFS偶发速度慢的问题,像大数据集群这种问题,有点疑难杂症的味道,本次也是经历了10多个小时的定位才真正把问题解决。问题现象使用客户端节点执行hdfs dfs -put文件上传至HDFS偶发慢,集群内部节点put文件也出现偶发速度慢;查看Hadoop集群相关监控指标未见异常;业务反馈入库作业有积压,数据积压于上传.原创 2020-10-11 23:35:58 · 28780 阅读 · 0 评论