运维
文章平均质量分 82
Meepoljd
热爱大数据和捯饬各种新奇玩意,立志要在运维工程师的路上稳步发展,并具备架构师的能力
展开
-
【Prometheus】关于Prometheus告警的一些使用心得
之前一直有在用Prometheus的规则引擎配一些告警,感觉内容还是比较多,做一下整理,方便以后用的时候有的查,一些基础的点官方文档有写,这里就不做赘述,主要是记录一些实用技巧和避开一些坑。原创 2024-04-02 17:53:34 · 389 阅读 · 0 评论 -
【HDFS】一次备NameNode宕机过久导致的生产事故
最近发生的一个临时故障,情况是一个启了HA的HDFS集群,在2023年9月份因为两台NameNode同时启动产生一些问题,所以当时将一台节点停止,一直没有启动,具体为什么当时有问题这个不太清楚,这次是唯一活动的NameNode节点因为硬件问题突然挂死了,需要把当初一直停止的节点拉起来做保证集群的服务可用,原创 2024-01-08 10:35:08 · 499 阅读 · 0 评论 -
【高可用】使用Keepalived实现SFTP服务的高可用
这个事情的背景是生产环境的数据采集流程时不时会出问题(这个也是不可避免的),目前的处理手段是:所有的数据接口服务器(也就是存放原始数据等待采集的服务器)都部署一模一样的2台,数据也传的一模一样,然后当采集程序采集当前节点的数据异常的时候,由运维人员去改配置手动的切换。这样操作面临的问题不用多说,首先就是时效性的问题,就算数据断了能够及时发出告警,等到运维人员处理完成那也是至少几十分钟后了,所以高可用的实现还是很有必要的。原创 2023-12-27 18:04:53 · 714 阅读 · 0 评论 -
但知行好事,莫要问前程
但知行好事,莫要问前程,2023结束了,24年继续前进吧,以运维的身份原创 2023-12-27 14:55:40 · 852 阅读 · 1 评论 -
【Python】使用pyppeteer进行网页截图并发送机器人
Pyppeteer是对Puppeteer的一个Python封装,常用在爬虫方面,最近使用它做网页巡检报告的截图,记录一下。原创 2023-12-19 17:56:29 · 964 阅读 · 0 评论 -
【数据可视化】Pyecharts的实际使用
记录了一下最近使用Pyecharts做数据可视化的经历原创 2023-12-19 17:30:37 · 349 阅读 · 0 评论 -
【实施】Sentry-self-hosted部署
Sentry 是一个开源的错误追踪(error tracking)平台。它主要用于监控和追踪应用程序中的错误、异常和崩溃。Sentry允许开发人员实时地收集和分析错误,并提供了强大的工具来排查和修复问题原创 2023-11-16 11:42:23 · 534 阅读 · 4 评论 -
【Flink】Flink任务缺失Jobmanager日志的问题排查
问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。原创 2023-11-15 14:08:33 · 1180 阅读 · 0 评论 -
【Ansible】Ansible的Ad-hoc命令执行流程
简单了解一下Ansible的ad-hoc命令执行ping模块的逻辑原创 2023-11-09 16:06:57 · 344 阅读 · 0 评论 -
【漏洞修复】OpenSSH-ssh-agent 越权访问CVE-2023-38408
打包Openssh9.3p2的RPM包并使用yum进行生产环境ssh版本升级原创 2023-08-17 11:28:57 · 2780 阅读 · 0 评论 -
【Go】实现一个代理Kerberos环境部分组件控制台的Web服务
使用Gin实现了一个Kerberos环境下的部分组件控制台的web代理功能原创 2023-07-18 17:36:41 · 1172 阅读 · 0 评论 -
【漏洞修复】node-exporter被检测出来pprof调试信息泄露漏洞
大概意思是开发者并没有发现pprof会泄漏啥信息,issue提出者使用的是gosec工具做的静态安全扫描,可能产生很多编译期间的误报,然后社区达成一致的结论是和prometheus社区保持一致,转而使用codeql工具。如果实在要解决就按照本文章进行原创 2023-06-09 09:38:07 · 11881 阅读 · 14 评论 -
【Go】用Go在命令行输出好看的表格
最近在写一些运维小工具,比如批量进行ping包的工具,实现不困难,反正就是ping,统计,然后输出,不过我本着自己既是开发者又是使用者的理念,还是不喜欢输出特别难看的工具,就像这样:所以就去瞄了一眼,看看有没有啥适合的库能够把输出整的好看点的,于是找到了一个库,这是一个在命令行输出格式化表格的库,这里记录一下使用这个库进行一些格式化输出的过程。原创 2023-03-10 14:33:56 · 2435 阅读 · 1 评论 -
【Linux】Sudo的隐晦bug引发的一次业务问题排查
记录一次生产环境sudo启动进程频繁被Kill且不报错的异常处理过程,如果遇到同样的问题只想要解决方案,直接跳到处理方案部分即可。原创 2023-03-08 12:56:44 · 719 阅读 · 0 评论 -
【DataX】数据同步到PG时遇到的分区不存在问题
大概说下这个问题牵扯出来的背景,一个外场项目,选型用PG存业务数据,然后客户要求保存保留一年的数据,运行到现在服务器5个T的磁盘已经有点扛不住了,使用率接近90%:项目经理无能,跟客户沟通调整存储周期无果,就把压力转给运维运营团队,经过一堆坎坷,最后决定用datax把原pg的数据同步到另一个同配置的pg节点去,然后再把原始数据清理掉,这样等于是变相的进行了存储的冷热分割了。至于同步走的数据客户要的时候怎么办,那自然就是再同步回去了(甲方确实会想出这种刁难你的活路)原创 2023-03-01 11:04:37 · 1112 阅读 · 0 评论 -
【Go】基于telegraf进行自定义插件开发(二)
书接上会,这次记录一下我基于telegraf进行的hdfs监控组件的开发工作,这其中也包括了开发完成后如何进行打包等事项。我的应用场景是,依赖于telegraf去监控大数据组件,所以第一个开发的就是hdfs的采集插件。原创 2023-02-27 15:58:18 · 698 阅读 · 0 评论 -
【Linux】接口机磁盘读写极度不均衡的原因分析
在进行服务器接口机资源梳理的时候,发现奇怪的write和read差异过大的现象,基于此,对这个问题进行了分析,并且最终确定是缓存机制导致了这个现象原创 2023-02-14 16:24:15 · 411 阅读 · 0 评论 -
【Go】基于telegraf进行自定义插件开发(一)
以长期使用Prometheus和各种exporter的经验来说,大量的exporter会占用物理机的端口资源,虽说这不是特别严重的问题,但是从安全和优雅程度来说,这不太好,经过多方的考察,感觉使用telegraf的插件进行指标采集是当前解决这个问题的一个比较好的办法,不过之前没进行过telegraf插件的开发,只能参考以下官方的文档整一下,本篇先记录一下telegraf插件开发的一些知识要点;本文仅对telegraf的插件开发做了一个简单介绍,下次会基于自己的插件从开发到部署做一个记录。原创 2023-01-30 10:50:40 · 1272 阅读 · 1 评论 -
【Go】实操使用go连接clickhouse
弄了个clickhouse连接查询测试的工具,然后把工具放到生产环境一测试,查询都正常,这下开发哥们要继续查他的程序问题了,😃,运维甩锅成功🎉🎉🎉。原创 2023-01-11 17:36:37 · 3750 阅读 · 0 评论 -
【Go】内存模型中的内存可见性
使用go必然会使用到协程以及其他的并发操作,初期学习的时候,经常在启动协程时操作变量出现问题,要么就是变量没更新,要么就是各种崩溃,或者vscode报告警之类的,于是浅看了一下Go的内存模型,也了解到Happens Before的概念,这里记录一下原创 2023-01-10 17:58:17 · 390 阅读 · 1 评论 -
【Go】使用Gin+Gorm进行开发时的一些踩坑总结
最近在使用Gin+Gorm进行运维集中化后端的开发,期间遇到一些问题,这里进行记录总结,希望也能帮到遇到同样问题的朋友。原创 2022-12-27 14:39:49 · 419 阅读 · 0 评论 -
【数据治理】Atlas2.2.0基于HDP进行Hive的接入
本文记录了在HDP3.1.5下,对接Atlas2.2.0的相关操作步骤和注意事项。原创 2022-11-16 15:26:08 · 867 阅读 · 0 评论 -
【Clickhouse】3分片2副本Clickhouse集群部署
最近业务方有Clickhouse的使用需求,在测试环境做了一下集群的部署,在此记录原创 2022-10-25 11:41:19 · 900 阅读 · 0 评论 -
【HDFS】DataNode启动异常的各种原因和处理方式
在生产环境中,无论遇到什么问题,只要和存储相关,不要轻易使用格式化类的命令,网上很多DN启动失败的教程就是直接让你format整个HDFS,然后跟你说生产环境亲测,很坑,最后!不要format!不要format!不要format!原创 2022-10-19 09:31:52 · 986 阅读 · 0 评论 -
【HDFS】大数据集群坏盘问题的一种处理实践
在规模比较大的HDFS集群里,每天最容易出现的问题便是磁盘问题,我们的大集群1700+的DataNode节点,基本上每天都有磁盘损坏(虽然我也不知道是不是和磁盘的质量有关),有时候是磁盘直接读写错误,有时候是磁盘直接报废,无论怎样,这种情况都需要人工介入处理,如果某几天维护人员都很忙,或者碰到那种恶心的客户天天逮着你做他们的事情,这种坏盘的处理就有可能被搁置。原创 2022-10-18 17:51:23 · 1486 阅读 · 0 评论 -
【Linux】关于我删文件力度过大导致IO占用太高的解决思路
书接上回,前两天刚找到删文件性能比较OK的方式后,测试没啥问题就在生产环境开始操练了, 虽然文件是在持续删除着,但是跑了一段时间以后,执勤同事找我说IO满了,问我是不是做了啥,我上去一看还真是,然后让我先停了:但是文件也不能不删,脚本还是要跑,基于这个问题,看看怎么样控制IO又能够持续做文件清理。虽然通过脚本的方式控制了文件清理对IO的占用,但是这算是没办法的办法,若是能够对Linux的IO调度策略再熟悉些,也许我能找到更好的办法吧,学无止境~原创 2022-09-22 17:34:31 · 1353 阅读 · 5 评论 -
【Prometheus】针对公司全国省份的2000台服务器部署监控系统
公司现在在31省(不包括港澳台)都有搭建一个Hadoop的集群,目前是通过分开的Ambari管理的,也就是说,运维人员每天会登录到所有Ambari上面去查看,总共有2000多台物理服务器,每天的工作量还是比较大的,基于此建立IAAS层的基础监控体系原创 2022-09-22 09:12:51 · 722 阅读 · 2 评论 -
【Linux】聊聊删文件的那些破事
在操作系统的日常运维中,我们经常会做文件的创建、删除、修改操作,尤其是删除,无论是定期清理日志文件,还是做完一个操作以后删除临时文件,这都是非常常见的操作,如果你运维的服务器是非常小型的,而且业务量并不多,那也许你永远不会遇到在文件删除时产生的性能问题;但是如果你需要运维临时文件产生巨多或者日志产生巨多或者其他会产生大量文件的服务器,你也许会遇到删除文件时的瓶颈问题,其中最常见的就是;相信很快你就会遇到上述的问题,从这个问题出发,我们聊聊删除文件的这些破事。原创 2022-09-21 11:56:25 · 524 阅读 · 0 评论 -
【Ambari】生产集群中组件启动报错JDK找不到
这周成都可算是复工了,上周居家办公的时候,配合其他同事线上对各个集群的Ambari元数据库做了迁移工作,因为这个迁移不涉及组件的变更,所以当时做完没有去做所有集群的服务组件启停的测试,只是做了抽查,毕竟30多个集群,大部分的集群只是观察了一会主机的监控和agent上报就没管了。昨天下午,突然接到同事的会议邀请,说是有个集群服务启停不正常,Spark Worker重启都失败了,于是就上去和他们一起看了下,其实问题也是人为疏忽导致的,这里做了一下记录。原创 2022-09-20 10:18:51 · 804 阅读 · 0 评论 -
【PostgreSQL】PG_DUMP的文件大小元小于库占用物理空间统计
使用pg_dump做pg库备份的时候,发现导出的数据量大小远小于统计出来的占用空间大小,进行测试并记录原创 2022-09-16 13:34:53 · 644 阅读 · 0 评论 -
【Django】一些DRF的学习记录
问题记录问题1:信号没有按预期触发描述编写了信号函数后,并没有如预期一般在必要时候触发,函数如下:@receiver(signals.post_save, sender=Prometheus)def monitor_prometheus_update(instance, **kwargs): # 当发生修改时,更新控制台url web_url = "http://{ip}:{port}/{route}".format(ip=instance.ip, port=i原创 2022-08-25 12:02:41 · 273 阅读 · 0 评论 -
【PERL】内网环境使用Killcx关闭指定TCP连接
近日在生产环境我们要进行调度服务迁移,几天的夜间工作中,多次遇到一个业务逻辑导致的问题:在调度重启的过程中,会通过Yarn的资源接口获取正在运行的任务进行Kill操作,这个操作本身是为了防止调度重启期间有计算任务被遗漏,索性从重启那一刻起,所有状态为运行中、失败的任务都会在随后重启完成后进行提交,因此,在Yarn上要把之前提交的任务都干掉,防止重复;基于此,调度服务会在这个步骤卡住非常长的时间,影响业务。...原创 2022-08-15 18:29:42 · 830 阅读 · 0 评论 -
【HDFS】记一次由JN性能瓶颈导致的NN频繁宕机异常
某年某月某日开始,测试环境的NameNode开始频繁宕机,基本上是每天都会稳定触发此问题;第一次查的时候看到和JN通信发生超时,然后就宕机了,但是当时JN服务又是正常的,遂没太上心,重启完事,结果后面又继续出此问题,所以还是进行排查顺便记录一下...原创 2022-08-02 22:47:37 · 996 阅读 · 1 评论 -
【Prometheus】Prometheus联邦的一次优化记录[续]
使用Prometheus进行大量主机指标摄取时,总会遇到指标量过多导致的数据拉取超时的情况,分组能够很好的对这种情况进行优化;原创 2022-07-28 14:32:18 · 448 阅读 · 0 评论 -
【Ambari】用Python写一个Ambari的运维工具(一)
前端时间忙完了安全漏洞修复相关的工作后可算是闲下来一些了,想着写点什么,正好遇到客户放强推堡垒机,以后VPN这些连接环境的手段就无法使用了,而客户这边的堡垒机访问web页面的体验那真是一言难尽,所以为了能够方便做一些日常的运维、启停的操作,想写一个命令行工具,用来对接ambari,开个坑先,如果内部团队用的好的话,说不定以后再把这个继续做下去:D...原创 2022-07-18 16:45:59 · 1115 阅读 · 1 评论 -
【LDAP】在Centos7环境搭建LDAP服务端
在Centos7中创建OpenLDAP服务端原创 2022-07-13 16:43:09 · 2633 阅读 · 0 评论 -
Nginx配置https访问
nginx配置https访问原创 2022-06-10 11:53:19 · 241 阅读 · 0 评论 -
【Grafana】Grafana Mimir在海量时间序列指标中的优化
Grafana Mimir 是 Grafana Labs 新开源的项目,用来为 Prometheus 提供持久化存储,开源许可协议是 AGPL-3.0。原创 2022-05-27 11:41:09 · 1501 阅读 · 0 评论 -
【Prometheus】Prometheus联邦的一次优化记录
Prometheus联邦的一次优化记录前言正文重新规整labels无用指标筛选前言现网环境下,我的Prometheus是使用了联邦特性的,这是因为监控的服务器存在于多个物理位置,同时服务器数量众多,综合考虑下才使用了联邦;不过因为当时服务器用的比较散,单台采集节点并不需要监控过多的服务器,大概也就在500台不到,因此性能问题一直都没出现,我也以为不会有什么坑。这段时间,针对数据中台集群要进行统一的node-exporter的指标采集,集群规模大概是2600台,因为一些特殊原因,最终使用1台联邦节点和2原创 2022-05-25 11:48:22 · 469 阅读 · 0 评论 -
【HBASE】记一次HBase进行数据迁移,重建元数据
hbase生产集群大量永久RIT无法修复,为保证查询,迁移数据到小集群原创 2022-05-12 11:42:55 · 1303 阅读 · 1 评论