![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SRETalk
文章平均质量分 89
夜莺云原生监控
Nightingale | 夜莺监控,一款先进的开源云原生监控分析系统,Prometheus Enterprise Edition,Prometheus企业级版本,隶属中国计算机学会开源发展委员会
展开
-
SRE 排障利器,接口请求超时试试 httpstat
A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。httpstat 工具应运而生原创 2024-06-11 10:20:12 · 420 阅读 · 0 评论 -
透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解
Prometheus 生态里有很多采集器负责各类监控数据的采集,其中使用最广泛的,显然是 node-exporter,负责 Linux、BSD 等系统的常规监控指标的采集,比如 CPU、内存、硬盘、网络、IO 等。。很多人都用过,但对其细节未必清楚。我想写一个小专栏,通过 node-exporter 这个采集器,讲解各类指标的含义、采集方法、使用场景、注意事项。顺带讲解 Linux 的很多观测手段。想必对于初中级研发、运维人员都会有帮助,专栏依旧会放到星球里,争取让星球的资源慢慢更为丰富起来。原创 2024-05-31 11:04:48 · 431 阅读 · 0 评论 -
Prometheus 聚合查询的两个方案
多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。反正大家注意就好了。然后,把 promxy 作为数据源配置到夜莺或者 Grafana 中,注意 promxy 默认监听的端口是 8082,之后,就可以查询这个数据源的数据做测试了。同时查到了两个时序库的数据,挺好的。原创 2024-05-24 10:44:08 · 775 阅读 · 0 评论 -
写了一个 SRE 调试工具,类似一个小木马
远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件。是一个 Web Server,通过 HTTP 请求来操作机器,类似一个小木马。当然,因为是一个 Web Server,所以也提供了打印 HTTP 请求的能力,方便调试 Webhook 场景。下面给大家演示一下。原创 2024-04-18 11:27:38 · 812 阅读 · 0 评论 -
SRE 必备利器:域名 DNS 探测排障工具
夜莺是一款开源云原生监控工具,是中国计算机学会接受捐赠并托管的第一个开源项目,在GitHub上有超过8000颗星,迭代发布了超过100多个版本,上百位社区贡献者,是国内领先的开源可观测性解决方案。访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。快猫星云,让可观测性数据更有价值!原创 2024-04-12 16:52:54 · 381 阅读 · 0 评论 -
关于 ulimit 的两个天坑
稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误,这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置,有哪些需要注意的点呢?本文给大家做一个介绍,希望对大家有所帮助。原创 2024-04-03 15:22:03 · 611 阅读 · 0 评论 -
老张,你的服务是不是挂了?论全局 SLI 的重要性
故而,我们希望这些服务之间有横向依赖关系,通常可以从 tracing 系统自动获取,如果没有 tracing 系统,也可以用 eBPF 或手工建立这个关系,手工建立其实也不麻烦,你对你的服务熟悉,你只需要配置你自己的服务即可,全公司可能 500 个微服务,最终是由 200 多个人分别去建立,每个人配置一两个微服务,也不是很难。的三层关系,底层服务如果出问题,问题上浮,在最终的系统层面画个红 x 之类的,首页只展示各个系统的健康状况,系统的数量通常不会特别多,就可以做到一目了然。原创 2024-03-28 10:47:18 · 835 阅读 · 0 评论 -
别想宰我,怎么查看云厂商是否超卖?详解 cpu steal time
如果你在物理机上查看这个指标,这个指标必然是 0,只有虚拟机才需要关注这个指标。我们看一下 CPU steal time 的定义(来自ibm.com):虚拟机毕竟是被虚拟出来的,虚拟机要用到 CPU,最终还是要通过宿主机的 CPU 来完成,如果宿主机的 CPU 正在为其他虚拟机服务,那么当前虚拟机就会等待,这个等待的时间就是 steal time。CPU 跟内存不一样,内存是可以做到硬限制的,如果云厂商超卖,CPU 抢占确实有可能会影响到你的应用程序,所以,我们需要关注这个指标。具体如何查看呢?原创 2024-03-26 19:44:23 · 413 阅读 · 0 评论 -
使用 nsenter 排查容器网络问题
如上,使用 bash 命令进入 net namespace,然后执行 ifconfig,看到 IP:172.22.0.6,显然这就是容器的 IP,说明 nsenter 达成所愿,之后在这个 bash session 内执行 curl、telnet 之类的,就相当于在容器里执行一样的效果。这个需求比较典型,这里教大家一个简单的方法,使用 nsenter 进入容器的 net namespace,即可使用宿主机的 curl、ip、ifconfig 等命令,其效果,就跟进入容器中执行是一样的。原创 2024-03-19 11:14:32 · 926 阅读 · 0 评论 -
5 分钟小工具:使用 dive 分析 docker 镜像
dive 工具可以做这些分析。dive 的 github 地址是,小巧玲珑,MIT 开源协议,42.9k 的 star。原创 2024-03-16 17:35:09 · 568 阅读 · 0 评论 -
Vector + ClickHouse 收集日志
目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse。至于日志的可视化,后面再单独介绍,后面夜莺会把日志可视化能力下放到开源版本,之前跟映客的兄弟们交流准备一起搞,可惜迟迟没有抽出时间。别急,会有的,本文先把前半段完成,即日志的收集 + 传输 + 清洗 + 存储。存储显然是 ClickHouse,前面三个环节,使用 Vector 来完成。原创 2024-03-15 14:46:05 · 1283 阅读 · 0 评论 -
如何排查常规软件问题 - 面向 Linux 初级用户的教程
笔者从 14 年做开源软件以来,接触了众多 Linux 新手用户,这里我为这类用户总结了一些常见的问题排查方法,希望能帮助到大家。如果你已经工作多年,对于下面提到的思路和方法应该非常熟悉,如果对某一条感到陌生,咳咳,真的不太应该,赶紧补补吧。原创 2024-02-04 15:49:00 · 803 阅读 · 0 评论 -
漫画图解 Go 并发编程之:Channel
当谈到并发时,许多编程语言都采用共享内存/状态模型。然而,Go 通过实现 Communicating Sequential Processes(CSP)而与众不同。在 CSP 中,程序由不共享状态的并行处理器组成;相反,他们使用 Channel 来沟通和同步他们的行动。因此,对于有兴趣采用 Go 的开发人员来说,理解 Channel 的工作原理变得至关重要。在本文中,我将使用地鼠经营他们想象中的咖啡馆的令人愉快的类比来说明 Channel ,因为我坚信人类是更好的视觉学习者。原创 2024-01-30 11:57:16 · 1007 阅读 · 0 评论 -
快速监控 Oracle 数据库
Oracle 数据库在行业内应用广泛,通常存放的非常重要的数据,监控是必不可少的,本文使用 Cprobe 采集 Oracle 监控数据,极致简单,分享给大家。原创 2024-01-18 17:56:21 · 1316 阅读 · 0 评论 -
大一统的监控探针采集器 cprobe
以我当前的认知,监控数据的采集大抵需要三个角色,一个是部署在所有的目标机器上的,比如使用 categraf,中心端需要两个采集器,一个用于采集 Prometheus 协议的端点数据,可以使用 vmagent 或 Prometheus agent mode,另外一个用于采集所有非 Prometheus 协议的端点数据,计划就是 cprobe。当然,大家如有建议也欢迎留言给我们。要是能有一个统一的采集器,把这些问题都解决掉,采用插件机制,All-in-One 采集所有监控目标,不同的插件体验一致,那该多好啊!原创 2024-01-13 10:50:58 · 994 阅读 · 0 评论 -
招贤令:一起来搞一个新开源项目
我想搞一个新的开源项目,想邀请同道中人一起来搞。目标是做一个探针式监控采集器,使用 Go 语言编写,欢迎感兴趣的朋友一起来搞。原创 2024-01-04 11:59:10 · 407 阅读 · 0 评论 -
Prometheus 14 点实践经验分享
这是 2017 年的 promcon 的分享,原文地址在,作者 Julius Volz,今天偶然看到,虽然已经过去 6 年,有些实践经验还是非常值得学习。做个意译,加入一些自己的理解,分享给大家。原创 2023-12-29 18:19:41 · 913 阅读 · 0 评论 -
稳定性保障8个锦囊,建议收藏!
稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。原创 2023-11-22 10:22:42 · 64 阅读 · 0 评论 -
可观测性数据收集集大成者 Vector 介绍
Vector 通常用作 logstash 的替代品,logstash 属于 ELK 生态,使用广泛,但是性能不太好。Vector 使用 Rust 编写,声称比同类方案快 10 倍。Vector 来自 Datadog,如果你了解监控、可观测性,大概率知道 Datadog,作为行业老大哥,其他小弟拍马难及。Vector 不止是收集、路由日志数据,也可以路由指标数据,甚至可以从日志中提取指标,功能强大。原创 2023-10-13 14:45:00 · 160 阅读 · 0 评论 -
VictoriaLogs 要凭什么革了各家日志存储的命
如果大家对时序指标的存储方案有些了解,那大概率会听过 VictoriaMetrics,VictoriaMetrics 号称 Prometheus 的升级版,在性能和成本方面也确实做得很好,如果是夜莺新用户,我都是推荐直接使用 VictoriaMetrics 来作为存储。原创 2023-10-13 14:22:50 · 194 阅读 · 0 评论 -
面向故障处理的可观测性体系建设
可观测性体系不能仅仅只有散乱的数据,而应让数据呈现特征,让特征呈现观点,让特征和观点辅助洞察:洞悉故障直接原因,完成止损!这才是建设可观测性体系的核心目标。诸君共勉。,我们愿意成为您向上的台阶,让您的可观测性体系更加完善,让技术体系底气更足。快来聊聊吧:微信公众号SRETalk。原创 2023-06-19 10:06:05 · 117 阅读 · 0 评论 -
2 分钟,搞懂 SLO 最佳实践
SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!原创 2023-05-26 17:05:23 · 298 阅读 · 0 评论 -
SRE 心里话:要求 100% 服务可用性就是老板的无知
不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出原创 2023-05-25 12:53:52 · 62 阅读 · 0 评论 -
SRE Google 运维解密读书笔记一:SRE 方法论概述
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论原创 2023-05-17 14:26:48 · 282 阅读 · 0 评论 -
LinkedIn:扩展 Salt 以解决大规模机器命令执行需求
新的 Salt 架构支持每天在 LinkedIn 基础设施的主机上执行超过 15000 个远程作业,从而可以轻松扩展和操作,解决以前的挑战。它现在执行的作业数量增加了 10 倍,可靠性和可扩展性也比以前更高。翻译 2023-04-24 17:57:36 · 104 阅读 · 0 评论 -
治理告警风暴,告警降噪的一些典型手段
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?在现代化的互联网架构中,告警是监控系统中最为重要的一部分,可以帮助运维人员及时发现并解决问题,确保服务的可用性和稳定性。但是,随着业务的不断扩大和系统的不断升级,告警数量也会快速增加,导致告警风暴的出现,给运维人员、研发人员带来了很大的困扰。原创 2023-04-19 11:48:38 · 626 阅读 · 0 评论