Meepoljd-CSDN博客

原创【Linux】Sudo的隐晦bug引发的一次业务问题排查

记录一次生产环境sudo启动进程频繁被Kill且不报错的异常处理过程，如果遇到同样的问题只想要解决方案，直接跳到处理方案部分即可。

2023-03-08 12:56:44 1110

转载 [转]HDFS NameNode内存全景

NameNode在整个HDFS系统架构中占据举足轻重的位置，内部数据和处理逻辑相对复杂，本文简单梳理了NameNode的内存全景及对其中几个关键数据结构，从NameNode内存核心数据视角对NameNode进行了简单的解读，并结合实际场景介绍了随着数据规模的增加，NameNode内存可能遇到的问题及业界各种可借鉴的解决方案。在后续的《HDFS NameNode内存详解》中，我们会详细解读NameNode的几个关键数据结构，分析各数据结构在JVM Heap使用占比情况。

2025-04-02 13:54:57 218

原创【平台优化】多容器分配致使NM出现热点导致任务性能降低

在前面的文章持续调度参数在高负载大集群中的影响中有说过，为了防止持续调度锁导致的调度阻塞，我们集群关闭了持续调度开关，同时打开了多容器分配，这意味着，在一次心跳中将不会只分配一个container，而是分配多个containers到一个nodemanager节点，那么可预见的，对应的nm节点就有可能出现热点问题。该问题的发现也是经过不断的摸索发现的，在此记录。

2025-03-24 15:11:35 400

原创【平台优化】持续调度参数在高负载大集群中的影响

这几年经历了我们大数据的Yarn集群的几次扩容，集群从原先的800多台增加到1300多台到现在的1600多台，在集群规模不断增加的过程中，有遇到一次扩容后调度性能不增反降的情况，经过排查确认到是和持续调度有关。本文记录了该问题的详细排查过程和解决手段。

2025-03-24 15:10:06 1184

原创【平台优化】大数据集群一个客户端参数引起的任务性能差的问题

随着业务量不断扩大，平台逐步发展成HDFS多联邦的架构，这个过程中，作为平台维护人员也会对参数进行不定期的优化以应对逐渐繁重的存算压力。最近一个重点保障业务的计算任务无法满足客户的数据时延要求，客户很生气，然后也是各种投诉，然后项目上的同事就拉着一起查了下问题，最终定位到是一个客户端参数在大体量集群下造成的，记录一下

2025-03-19 18:18:42 822

原创【Python】FastAPI框架快速实现后端（一）

最近1个多月，用FastAPI做了几个日常工作用的小功能，感觉FastAPI确实很适合这种场景，功能要求简单，交付要求比较急，这个时候一个人就能快速用FastAPI写个东西出来马上就用，在这个背景下，我选择使用FastAPI，并且使用过程中也算是有了些积累，分享一下，本章先说说SQLModel。FastAPI团队为了进一步降低框架使用门槛，还开发了一个SQLModel的ORM来配套使用，虽然相比sa来说SQLModel限制很多，而且不是很灵活，并发方面也有一些bug，但是确实很简单

2025-01-21 16:33:48 1339

原创【排查案例】无认证集群空白分区创建元凶排查记录

今天分享一个最近在生产环境排查的空白分区的问题，在无法通过审计程序抓到罪魁祸首的情况下，如何借助抓包工具分析hdfs请求从而找到问题所在

2025-01-21 14:28:40 842

原创【Linux】在Windows搭建WSL2开发环境

个人电脑崩了，重新做了下环境

2024-09-13 11:14:35 682 1

原创【Centos】关于容器启动Centos7缺失字符集的问题

最近做一些软件测试和打包，需要频繁的装系统，索性用docker启Centos容器来做，基础镜像做好直接启就好，过程中遇到一个和字符集有关的问题，记录一下，方便遇到同样问题的小伙伴。

2024-09-13 10:59:52 484

原创【Bigtop】Ambari2.8.0编译及安装

编译Ambari并通过Ambari部署BigTop堆栈

2024-08-29 17:31:18 1171 1

原创【Bigtop】利用Bigtop3.2.0编译大数据组件RPM包

Bigtop 从0开始参考了上述的博文自己尝试了编译组件，过程还是遇到很多问题，一一记录，方便后人

2024-08-26 14:19:28 1542 3

原创【Prometheus】关于Prometheus告警的一些使用心得

之前一直有在用Prometheus的规则引擎配一些告警，感觉内容还是比较多，做一下整理，方便以后用的时候有的查，一些基础的点官方文档有写，这里就不做赘述，主要是记录一些实用技巧和避开一些坑。

2024-04-02 17:53:34 880 2

原创【Python】不一样的Ansible（一）

Ansible是一个极其简单的 IT 自动化引擎，可自动执行云配置、配置管理、应用程序部署、服务内编排和许多其他 IT 需求；基本上每一个运维工程师都会听过或者使用过Ansible（这是必然的，只要你需要管理超过2位数的服务器，Ansible基本是一个必备的工具），如果你还不知道Ansible是怎么用的，一定要找一个环境试试，这是一个真正让运维工作自动化并且事半功倍的工具。

2024-01-08 18:16:31 1434

原创【HDFS】一次备NameNode宕机过久导致的生产事故

最近发生的一个临时故障，情况是一个启了HA的HDFS集群，在2023年9月份因为两台NameNode同时启动产生一些问题，所以当时将一台节点停止，一直没有启动，具体为什么当时有问题这个不太清楚，这次是唯一活动的NameNode节点因为硬件问题突然挂死了，需要把当初一直停止的节点拉起来做保证集群的服务可用，

2024-01-08 10:35:08 1001

原创【高可用】使用Keepalived实现SFTP服务的高可用

这个事情的背景是生产环境的数据采集流程时不时会出问题（这个也是不可避免的），目前的处理手段是：所有的数据接口服务器（也就是存放原始数据等待采集的服务器）都部署一模一样的2台，数据也传的一模一样，然后当采集程序采集当前节点的数据异常的时候，由运维人员去改配置手动的切换。这样操作面临的问题不用多说，首先就是时效性的问题，就算数据断了能够及时发出告警，等到运维人员处理完成那也是至少几十分钟后了，所以高可用的实现还是很有必要的。

2023-12-27 18:04:53 1319

原创但知行好事，莫要问前程

但知行好事，莫要问前程，2023结束了，24年继续前进吧，以运维的身份

2023-12-27 14:55:40 974 1

原创【Python】FastAPI学习记录（二）

FastAPI的学习记录，包含模型的定义以及不同请求信息的设置

2023-12-25 15:22:48 340

原创【Python】FastAPI学习记录（一）

使用FastAPI框架的过程中一些学习记录，包含基础的查询参数、路径参数以及请求体的参数绑定和处理

2023-12-25 15:21:36 371

原创【Python】使用pyppeteer进行网页截图并发送机器人

Pyppeteer是对Puppeteer的一个Python封装，常用在爬虫方面，最近使用它做网页巡检报告的截图，记录一下。

2023-12-19 17:56:29 1920

原创【数据可视化】Pyecharts的实际使用

记录了一下最近使用Pyecharts做数据可视化的经历

2023-12-19 17:30:37 1209

原创【实施】Sentry-self-hosted部署

Sentry 是一个开源的错误追踪（error tracking）平台。它主要用于监控和追踪应用程序中的错误、异常和崩溃。Sentry允许开发人员实时地收集和分析错误，并提供了强大的工具来排查和修复问题

2023-11-16 11:42:23 3394 13

原创【Flink】Flink任务缺失Jobmanager日志的问题排查

问题不是大问题，不是什么代码级别的高深问题，也没有影响任务运行，纯粹因为人员粗心导致，记录一下排查的过程。

2023-11-15 14:08:33 2904

原创【Ansible】Ansible的Ad-hoc命令执行流程

简单了解一下Ansible的ad-hoc命令执行ping模块的逻辑

2023-11-09 16:06:57 581

原创【漏洞修复】OpenSSH-ssh-agent 越权访问CVE-2023-38408

打包Openssh9.3p2的RPM包并使用yum进行生产环境ssh版本升级

2023-08-17 11:28:57 4499

原创【漏洞修复】node-exporter被检测/debug/vars泄漏信息漏洞

和之前的pprof类似，都是国产的安全工具扫出来的莫名其妙的东西，这次也是报的node-exporter存在这个漏洞，又归我处理。

2023-07-18 20:01:17 5897 7

原创【Go】实现一个代理Kerberos环境部分组件控制台的Web服务

使用Gin实现了一个Kerberos环境下的部分组件控制台的web代理功能

2023-07-18 17:36:41 1591

原创【漏洞修复】node-exporter被检测出来pprof调试信息泄露漏洞

大概意思是开发者并没有发现pprof会泄漏啥信息，issue提出者使用的是gosec工具做的静态安全扫描，可能产生很多编译期间的误报，然后社区达成一致的结论是和prometheus社区保持一致，转而使用codeql工具。如果实在要解决就按照本文章进行

2023-06-09 09:38:07 25231 16

原创【Go】用Go在命令行输出好看的表格

最近在写一些运维小工具，比如批量进行ping包的工具，实现不困难，反正就是ping，统计，然后输出，不过我本着自己既是开发者又是使用者的理念，还是不喜欢输出特别难看的工具，就像这样：所以就去瞄了一眼，看看有没有啥适合的库能够把输出整的好看点的，于是找到了一个库，这是一个在命令行输出格式化表格的库，这里记录一下使用这个库进行一些格式化输出的过程。

2023-03-10 14:33:56 4176

原创【DataX】数据同步到PG时遇到的分区不存在问题

大概说下这个问题牵扯出来的背景，一个外场项目，选型用PG存业务数据，然后客户要求保存保留一年的数据，运行到现在服务器5个T的磁盘已经有点扛不住了，使用率接近90%：项目经理无能，跟客户沟通调整存储周期无果，就把压力转给运维运营团队，经过一堆坎坷，最后决定用datax把原pg的数据同步到另一个同配置的pg节点去，然后再把原始数据清理掉，这样等于是变相的进行了存储的冷热分割了。至于同步走的数据客户要的时候怎么办，那自然就是再同步回去了（甲方确实会想出这种刁难你的活路）

2023-03-01 11:04:37 1842

原创【Go】基于telegraf进行自定义插件开发（二）

书接上会，这次记录一下我基于telegraf进行的hdfs监控组件的开发工作，这其中也包括了开发完成后如何进行打包等事项。我的应用场景是，依赖于telegraf去监控大数据组件，所以第一个开发的就是hdfs的采集插件。

2023-02-27 15:58:18 1168

原创【Linux】接口机磁盘读写极度不均衡的原因分析

在进行服务器接口机资源梳理的时候，发现奇怪的write和read差异过大的现象，基于此，对这个问题进行了分析，并且最终确定是缓存机制导致了这个现象

2023-02-14 16:24:15 698

原创【Go】基于telegraf进行自定义插件开发（一）

以长期使用Prometheus和各种exporter的经验来说，大量的exporter会占用物理机的端口资源，虽说这不是特别严重的问题，但是从安全和优雅程度来说，这不太好，经过多方的考察，感觉使用telegraf的插件进行指标采集是当前解决这个问题的一个比较好的办法，不过之前没进行过telegraf插件的开发，只能参考以下官方的文档整一下，本篇先记录一下telegraf插件开发的一些知识要点；本文仅对telegraf的插件开发做了一个简单介绍，下次会基于自己的插件从开发到部署做一个记录。

2023-01-30 10:50:40 2177 1

原创【Go】实操使用go连接clickhouse

弄了个clickhouse连接查询测试的工具，然后把工具放到生产环境一测试，查询都正常，这下开发哥们要继续查他的程序问题了，😃，运维甩锅成功🎉🎉🎉。

2023-01-11 17:36:37 5358

原创【Go】内存模型中的内存可见性

使用go必然会使用到协程以及其他的并发操作，初期学习的时候，经常在启动协程时操作变量出现问题，要么就是变量没更新，要么就是各种崩溃，或者vscode报告警之类的，于是浅看了一下Go的内存模型，也了解到Happens Before的概念，这里记录一下

2023-01-10 17:58:17 585 1

原创【Go】使用Gin+Gorm进行开发时的一些踩坑总结

最近在使用Gin+Gorm进行运维集中化后端的开发，期间遇到一些问题，这里进行记录总结，希望也能帮到遇到同样问题的朋友。

2022-12-27 14:39:49 692

原创【数据治理】Atlas2.2.0基于HDP进行Hive的接入

本文记录了在HDP3.1.5下，对接Atlas2.2.0的相关操作步骤和注意事项。

2022-11-16 15:26:08 1073

原创【数据治理】Atlas2.2.0独立部署-单节点

本文描述了基于atlas-2.2.0版本进行独立部署的步骤；Atlas的独立部署在生产环境是很有必要的，自带的hbase和kafka是没法承担海量数据的存储和消息传递的，本博文的所有步骤均在自己的环境中测试成功。

2022-11-15 11:33:00 1378

原创【Clickhouse】3分片2副本Clickhouse集群部署

最近业务方有Clickhouse的使用需求，在测试环境做了一下集群的部署，在此记录

2022-10-25 11:41:19 1367

原创【HDFS】DataNode启动异常的各种原因和处理方式

在生产环境中，无论遇到什么问题，只要和存储相关，不要轻易使用格式化类的命令，网上很多DN启动失败的教程就是直接让你format整个HDFS，然后跟你说生产环境亲测，很坑，最后！不要format！不要format！不要format！

2022-10-19 09:31:52 1556

原创【HDFS】大数据集群坏盘问题的一种处理实践

在规模比较大的HDFS集群里，每天最容易出现的问题便是磁盘问题，我们的大集群1700+的DataNode节点，基本上每天都有磁盘损坏（虽然我也不知道是不是和磁盘的质量有关），有时候是磁盘直接读写错误，有时候是磁盘直接报废，无论怎样，这种情况都需要人工介入处理，如果某几天维护人员都很忙，或者碰到那种恶心的客户天天逮着你做他们的事情，这种坏盘的处理就有可能被搁置。

2022-10-18 17:51:23 2111

空空如也

空空如也