大数据
文章平均质量分 85
Meepoljd
热爱大数据和捯饬各种新奇玩意,立志要在运维工程师的路上稳步发展,并具备架构师的能力
展开
-
【Bigtop】Ambari2.8.0编译及安装
编译Ambari并通过Ambari部署BigTop堆栈原创 2024-08-29 17:31:18 · 632 阅读 · 0 评论 -
【Bigtop】利用Bigtop3.2.0编译大数据组件RPM包
Bigtop 从0开始参考了上述的博文自己尝试了编译组件,过程还是遇到很多问题,一一记录,方便后人原创 2024-08-26 14:19:28 · 804 阅读 · 0 评论 -
【HDFS】一次备NameNode宕机过久导致的生产事故
最近发生的一个临时故障,情况是一个启了HA的HDFS集群,在2023年9月份因为两台NameNode同时启动产生一些问题,所以当时将一台节点停止,一直没有启动,具体为什么当时有问题这个不太清楚,这次是唯一活动的NameNode节点因为硬件问题突然挂死了,需要把当初一直停止的节点拉起来做保证集群的服务可用,原创 2024-01-08 10:35:08 · 634 阅读 · 0 评论 -
【Flink】Flink任务缺失Jobmanager日志的问题排查
问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。原创 2023-11-15 14:08:33 · 1644 阅读 · 0 评论 -
【Go】实现一个代理Kerberos环境部分组件控制台的Web服务
使用Gin实现了一个Kerberos环境下的部分组件控制台的web代理功能原创 2023-07-18 17:36:41 · 1251 阅读 · 0 评论 -
【Linux】Sudo的隐晦bug引发的一次业务问题排查
记录一次生产环境sudo启动进程频繁被Kill且不报错的异常处理过程,如果遇到同样的问题只想要解决方案,直接跳到处理方案部分即可。原创 2023-03-08 12:56:44 · 796 阅读 · 0 评论 -
【DataX】数据同步到PG时遇到的分区不存在问题
大概说下这个问题牵扯出来的背景,一个外场项目,选型用PG存业务数据,然后客户要求保存保留一年的数据,运行到现在服务器5个T的磁盘已经有点扛不住了,使用率接近90%:项目经理无能,跟客户沟通调整存储周期无果,就把压力转给运维运营团队,经过一堆坎坷,最后决定用datax把原pg的数据同步到另一个同配置的pg节点去,然后再把原始数据清理掉,这样等于是变相的进行了存储的冷热分割了。至于同步走的数据客户要的时候怎么办,那自然就是再同步回去了(甲方确实会想出这种刁难你的活路)原创 2023-03-01 11:04:37 · 1358 阅读 · 0 评论 -
【Go】基于telegraf进行自定义插件开发(二)
书接上会,这次记录一下我基于telegraf进行的hdfs监控组件的开发工作,这其中也包括了开发完成后如何进行打包等事项。我的应用场景是,依赖于telegraf去监控大数据组件,所以第一个开发的就是hdfs的采集插件。原创 2023-02-27 15:58:18 · 855 阅读 · 0 评论 -
【Linux】接口机磁盘读写极度不均衡的原因分析
在进行服务器接口机资源梳理的时候,发现奇怪的write和read差异过大的现象,基于此,对这个问题进行了分析,并且最终确定是缓存机制导致了这个现象原创 2023-02-14 16:24:15 · 481 阅读 · 0 评论 -
【Go】基于telegraf进行自定义插件开发(一)
以长期使用Prometheus和各种exporter的经验来说,大量的exporter会占用物理机的端口资源,虽说这不是特别严重的问题,但是从安全和优雅程度来说,这不太好,经过多方的考察,感觉使用telegraf的插件进行指标采集是当前解决这个问题的一个比较好的办法,不过之前没进行过telegraf插件的开发,只能参考以下官方的文档整一下,本篇先记录一下telegraf插件开发的一些知识要点;本文仅对telegraf的插件开发做了一个简单介绍,下次会基于自己的插件从开发到部署做一个记录。原创 2023-01-30 10:50:40 · 1539 阅读 · 1 评论 -
【Go】实操使用go连接clickhouse
弄了个clickhouse连接查询测试的工具,然后把工具放到生产环境一测试,查询都正常,这下开发哥们要继续查他的程序问题了,😃,运维甩锅成功🎉🎉🎉。原创 2023-01-11 17:36:37 · 4237 阅读 · 0 评论 -
【数据治理】Atlas2.2.0基于HDP进行Hive的接入
本文记录了在HDP3.1.5下,对接Atlas2.2.0的相关操作步骤和注意事项。原创 2022-11-16 15:26:08 · 900 阅读 · 0 评论 -
【数据治理】Atlas2.2.0独立部署-单节点
本文描述了基于atlas-2.2.0版本进行独立部署的步骤;Atlas的独立部署在生产环境是很有必要的,自带的hbase和kafka是没法承担海量数据的存储和消息传递的,本博文的所有步骤均在自己的环境中测试成功。原创 2022-11-15 11:33:00 · 1085 阅读 · 0 评论 -
【Clickhouse】3分片2副本Clickhouse集群部署
最近业务方有Clickhouse的使用需求,在测试环境做了一下集群的部署,在此记录原创 2022-10-25 11:41:19 · 994 阅读 · 0 评论 -
【HDFS】DataNode启动异常的各种原因和处理方式
在生产环境中,无论遇到什么问题,只要和存储相关,不要轻易使用格式化类的命令,网上很多DN启动失败的教程就是直接让你format整个HDFS,然后跟你说生产环境亲测,很坑,最后!不要format!不要format!不要format!原创 2022-10-19 09:31:52 · 1077 阅读 · 0 评论 -
【HDFS】大数据集群坏盘问题的一种处理实践
在规模比较大的HDFS集群里,每天最容易出现的问题便是磁盘问题,我们的大集群1700+的DataNode节点,基本上每天都有磁盘损坏(虽然我也不知道是不是和磁盘的质量有关),有时候是磁盘直接读写错误,有时候是磁盘直接报废,无论怎样,这种情况都需要人工介入处理,如果某几天维护人员都很忙,或者碰到那种恶心的客户天天逮着你做他们的事情,这种坏盘的处理就有可能被搁置。原创 2022-10-18 17:51:23 · 1645 阅读 · 0 评论 -
【Linux】关于我删文件力度过大导致IO占用太高的解决思路
书接上回,前两天刚找到删文件性能比较OK的方式后,测试没啥问题就在生产环境开始操练了, 虽然文件是在持续删除着,但是跑了一段时间以后,执勤同事找我说IO满了,问我是不是做了啥,我上去一看还真是,然后让我先停了:但是文件也不能不删,脚本还是要跑,基于这个问题,看看怎么样控制IO又能够持续做文件清理。虽然通过脚本的方式控制了文件清理对IO的占用,但是这算是没办法的办法,若是能够对Linux的IO调度策略再熟悉些,也许我能找到更好的办法吧,学无止境~原创 2022-09-22 17:34:31 · 1533 阅读 · 5 评论 -
【Ambari】生产集群中组件启动报错JDK找不到
这周成都可算是复工了,上周居家办公的时候,配合其他同事线上对各个集群的Ambari元数据库做了迁移工作,因为这个迁移不涉及组件的变更,所以当时做完没有去做所有集群的服务组件启停的测试,只是做了抽查,毕竟30多个集群,大部分的集群只是观察了一会主机的监控和agent上报就没管了。昨天下午,突然接到同事的会议邀请,说是有个集群服务启停不正常,Spark Worker重启都失败了,于是就上去和他们一起看了下,其实问题也是人为疏忽导致的,这里做了一下记录。原创 2022-09-20 10:18:51 · 856 阅读 · 0 评论 -
【Django】一些DRF的学习记录
问题记录问题1:信号没有按预期触发描述编写了信号函数后,并没有如预期一般在必要时候触发,函数如下:@receiver(signals.post_save, sender=Prometheus)def monitor_prometheus_update(instance, **kwargs): # 当发生修改时,更新控制台url web_url = "http://{ip}:{port}/{route}".format(ip=instance.ip, port=i原创 2022-08-25 12:02:41 · 288 阅读 · 0 评论 -
【PERL】内网环境使用Killcx关闭指定TCP连接
近日在生产环境我们要进行调度服务迁移,几天的夜间工作中,多次遇到一个业务逻辑导致的问题:在调度重启的过程中,会通过Yarn的资源接口获取正在运行的任务进行Kill操作,这个操作本身是为了防止调度重启期间有计算任务被遗漏,索性从重启那一刻起,所有状态为运行中、失败的任务都会在随后重启完成后进行提交,因此,在Yarn上要把之前提交的任务都干掉,防止重复;基于此,调度服务会在这个步骤卡住非常长的时间,影响业务。...原创 2022-08-15 18:29:42 · 932 阅读 · 0 评论 -
【HDFS】记一次由JN性能瓶颈导致的NN频繁宕机异常
某年某月某日开始,测试环境的NameNode开始频繁宕机,基本上是每天都会稳定触发此问题;第一次查的时候看到和JN通信发生超时,然后就宕机了,但是当时JN服务又是正常的,遂没太上心,重启完事,结果后面又继续出此问题,所以还是进行排查顺便记录一下...原创 2022-08-02 22:47:37 · 1059 阅读 · 1 评论 -
【Prometheus】Prometheus联邦的一次优化记录[续]
使用Prometheus进行大量主机指标摄取时,总会遇到指标量过多导致的数据拉取超时的情况,分组能够很好的对这种情况进行优化;原创 2022-07-28 14:32:18 · 490 阅读 · 0 评论 -
【Ambari】用Python写一个Ambari的运维工具(一)
前端时间忙完了安全漏洞修复相关的工作后可算是闲下来一些了,想着写点什么,正好遇到客户放强推堡垒机,以后VPN这些连接环境的手段就无法使用了,而客户这边的堡垒机访问web页面的体验那真是一言难尽,所以为了能够方便做一些日常的运维、启停的操作,想写一个命令行工具,用来对接ambari,开个坑先,如果内部团队用的好的话,说不定以后再把这个继续做下去:D...原创 2022-07-18 16:45:59 · 1150 阅读 · 1 评论 -
【LDAP】在Centos7环境搭建LDAP服务端
在Centos7中创建OpenLDAP服务端原创 2022-07-13 16:43:09 · 2845 阅读 · 0 评论 -
【HBASE】记一次HBase进行数据迁移,重建元数据
hbase生产集群大量永久RIT无法修复,为保证查询,迁移数据到小集群原创 2022-05-12 11:42:55 · 1414 阅读 · 1 评论 -
NameNode格式化——组件恢复,数据丢失
NameNode格式化——组件恢复,数据丢失前情提要过程记录准备工作停止HDFS进程删除数据删除日志和临时目录启动JournalNode服务格式化HDFS执行NameNode格式化恢复Standby NameNode启动Standby NameNode恢复依赖服务小结前情提要近段时间测试环境被研发整了一个特别离谱的事情,因为HDFS重启没启动起来,直接执行了format操作,大言不惭说的是百度这么说的,过了年以后我上环境看的时候,发现环境直接不能用了,然后启动也启动不起来,项目经理追着维护人员恢复环境,原创 2022-02-21 10:03:53 · 1978 阅读 · 0 评论 -
PG12数据库更改数据目录
PG12数据库更改数据目录修改启动文件重载服务配置初始化数据库修改启动文件此处默认使用RPM包将PG安装完成,默认会在/usr/lib/systemd/system/下创建一个postgresql.service文件,文件内容如下:# It's not recommended to modify this file in-place, because it will be# overwritten during package upgrades. It is recommended to use原创 2022-02-17 14:36:18 · 1349 阅读 · 1 评论 -
关于HDFS Balancer的一些小技巧
关于HDFS Balancer的一些小技巧前言正文原因分析Balancer工具做均衡带宽设置限定均衡范围参数调优结语前言使用HDFS的过程中,难免会出现数据不均衡的情况,直观表现就是有的服务器磁盘使用率高的吓人,有的服务器空闲的离谱;我在运维过程中也遇到很多这种情况,使用balancer工具做均衡也是总结了一些点,特意再次记录一下。正文原因分析对于HDFS来说,数据不均衡是个再正常不过的事情,就我所遇到的原因总结起来大概如下:组件部署导致:如NIFI等组件,同步数据至HDFS,若部署的节点同原创 2022-01-20 11:24:44 · 2825 阅读 · 2 评论 -
HUE4.10编译打包
HUE编译打包环境准备编译安装安装依赖安装Python3开始编译node安装SQLite3版本过低环境准备python3环境(非必须)githue源码包编译安装安装依赖根据官方的建议命令进行依赖的安装yum -y install libffi-devel gcc-c++ ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel原创 2022-01-18 15:58:43 · 1680 阅读 · 1 评论 -
Loki配置采集haproxy日志
Loki配置采集haproxy日志前言正文haproxy格式化日志Loki配置日志采集结语前言haproxy作为一个负载均衡器,能够有效的分摊应用的访问负载,一定程度上帮助应用避免单点风险,有时候,会有从haproxy日志中分析数据的需求。当前的一个环境中,通过haproxy作为后端查询接口的负载均衡器,在haproxy日志中捕捉了http请求中的关键信息,结合Loki进行日志采集,提供了一种可视化分析的方式。正文haproxy格式化日志默认的情况下,haproxy的日志记录的非常简单,只会记录原创 2022-01-14 09:56:34 · 570 阅读 · 0 评论 -
Grafana Loki日志采集初探
Grafana Loki日志采集初探1. 基本介绍1.1 工作概述1.2 基本特性1.3 架构介绍1.3.1 多租户设计1.3.2 工作模式1.3.2.1 Monolithic mode1.3.2.2 Simple scalable deployment mode1.3.2.3 Microservices mode1.4 Loki的组件1.4.1 Distributor1.4.2 Ingester1.4.3 Query frontend(查询前端)1.4.4 Querier(查询器)1.5 其他概念1.5.原创 2022-01-13 18:01:42 · 1086 阅读 · 0 评论 -
Yarn跟踪容器内存的开关
Yarn跟踪容器内存的开关前言正文结语前言之前使用的YARN环境,在查看NodeManger日志的时候能够看到容器内存使用情况的信息,类似这样的日志:2022-01-13 09:51:49,585 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Memory usage of ProcessTree 19631 for container-id containe原创 2022-01-18 16:19:41 · 540 阅读 · 0 评论 -
一次Namenode的RPC延迟故障排查引发的深入思考
一次Namenode的RPC延迟故障排查引发的深入思考前言正文问题排查初步定位临时恢复定位可疑进程问题分析问题脚本分析问题原因分析代码分析前言12月1日,多个省份的HDFS集群出现NameNodeRPC延迟高的问题,当时通宵了一个晚上,模糊的确认是存在频繁的du或者count操作导致的,后来也确认这个操作的发起方是开发人员用python写的采集脚本,统计数据量用的,会执行du命令,这次故障感觉还是挺有意思的,记录一下。正文问题排查初步定位过程的截图并不是记得很全,能列多少列多少吧。12月1日晚上原创 2022-05-26 11:01:23 · 1582 阅读 · 0 评论 -
Ambari集成Prometheus-打包软件
Ambari集成Prometheus-打包软件目录结构bin目录conf目录sbin目录环境设置脚本prometheus-env.sh启动脚本prometheus.shSPEC文件编写目录结构集成自定义的服务,首先要准备好服务的rpm安装包,Prometheus官方本身发布的就是开箱即用的二进制文件,所以不需要重新编译,但是为了集成Ambari,我们要做一些目录结构的修改,并且自定义一些打包动作,首先是目录结构,更改后结构如下:prometheus-2.31.1.linux-amd64|-- bin原创 2022-01-15 14:33:00 · 1234 阅读 · 0 评论 -
【Prometheus】针对公司全国省份的2000台服务器部署监控系统
公司现在在31省(不包括港澳台)都有搭建一个Hadoop的集群,目前是通过分开的Ambari管理的,也就是说,运维人员每天会登录到所有Ambari上面去查看,总共有2000多台物理服务器,每天的工作量还是比较大的,基于此建立IAAS层的基础监控体系原创 2022-09-22 09:12:51 · 799 阅读 · 2 评论 -
删了HDFS又能怎样?记一次删库不跑路事件[转]
一、事发背景二、应急措施直观的方案 三、分析过程hdfs文件删除过程BlockManagerEditLog hdfs元数据的加载方案确定 四、灾难重演五、经验总结 一、事发背景 上个月的某一天,由于集群空间不足,公司有一位权限较高的员工...转载 2021-02-01 16:44:46 · 282 阅读 · 1 评论 -
记一次使用SQOOP抽数到Hive遇到的问题
记一次使用SQOOP抽数到Hive遇到的问题前置条件1.源端数据库类型为Mysql2.目标端是Hive库,beeline为1.1.03.Hive建表时使用了分桶,并且加入了stored as orc参数,之前这么创建是为了能够实现delete等操作处理过程最初想要在Sqoop中使用hcatalog直接建表+抽数据,语句是这样写的:sqoop import --connect jdbc...原创 2019-05-21 11:03:48 · 4125 阅读 · 3 评论