自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 收藏
  • 关注

原创 一张图详解开源监控夜莺(Nightingale)的架构

如果您对此开源项目感兴趣,可以 star 一下留备后用。

2024-07-22 17:24:59 483

原创 7 张图,彻底讲透 Prometheus 架构原理

TargetsExportersPromQL让我们详细看看每个组件。这解释了 Prometheus 架构的主要组件,并将给出 Prometheus 配置的基本概述,您还可以使用配置做很多事情。每个组织的需求会有所不同,并且 Prometheus 在不同环境(例如 VM 和 Kubernetes)中的实现也有所不同。如果您了解基础知识和关键配置,您就可以轻松地在任何平台上落地它。本文翻译自这里。运维监控实战笔记。

2024-07-22 17:23:05 465

转载 10 张图,说透 Kubernetes 架构和数据流,这回算是真懂了

以下 Kubernetes 架构图显示了 Kubernetes 集群的所有组件以及外部系统如何连接到 Kubernetes 集群。关于 Kubernetes,您应该了解的第一件事是,它是一个分布式系统。这意味着,它有多个组件分布在网络上的不同服务器上。这些服务器可以是虚拟机或裸机服务器。我们称之为 Kubernetes 集群。Kubernetes 集群由控制平面节点和工作节点组成。了解 Kubernetes 架构有助于您进行日常 Kubernetes 实施和操作。

2024-07-18 10:30:27 53

原创 监控都没做好,还可观测性。。。

很多公司听说可观测性好,就要上马可观测性项目,自研/采购,各种投入,结果发现效果很差,业务不认可,最终一地鸡毛。其实凡事总有个过程和时机问题,在落地可观测性之前,我建议你先看看你们的监控做好了没有,监控的投入产出比高,也是可观测性的数据基础之一。我们公司就是提供监控+可观测性的产品和解决方案,在这里讲让大家慎重落地可观测性,其实是对我们不利的,不过作为乙方,我们更希望真正解决甲方的问题,共同成事,而不是贩卖焦虑,让甲方投入大量资源,最终效果却很差。

2024-07-16 10:03:23 987

原创 使用 夜莺+Categraf 快速建设 Redis 监控

上一篇文章《》我们已经了解了如何使用夜莺配合 Categraf 监控 MySQL,本节我们重点看看 Redis 监控的实操方案。

2024-07-12 20:07:53 317

原创 使用夜莺和Categraf快速建设MySQL监控

之前翻译过一篇文章,介绍,本文侧重实操,使用夜莺 v7.beta12.1 版本为大家做一个演示,采集器使用 Categraf,先看一下最终仪表盘效果:下面开工。

2024-07-11 11:52:19 819

原创 教你一招,告警恢复时如何拿到恢复时的值?

Prometheus 生态的监控系统,在告警恢复消息中难以拿到恢复时的值,Nightingale 中提供了一个较为简单的方法,值得尝试

2024-06-12 15:30:26 721

原创 SRE 排障利器,接口请求超时试试 httpstat

A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。httpstat 工具应运而生

2024-06-11 10:20:12 421

原创 透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

Prometheus 生态里有很多采集器负责各类监控数据的采集,其中使用最广泛的,显然是 node-exporter,负责 Linux、BSD 等系统的常规监控指标的采集,比如 CPU、内存、硬盘、网络、IO 等。。很多人都用过,但对其细节未必清楚。我想写一个小专栏,通过 node-exporter 这个采集器,讲解各类指标的含义、采集方法、使用场景、注意事项。顺带讲解 Linux 的很多观测手段。想必对于初中级研发、运维人员都会有帮助,专栏依旧会放到星球里,争取让星球的资源慢慢更为丰富起来。

2024-05-31 11:04:48 434

原创 Prometheus 聚合查询的两个方案

多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。反正大家注意就好了。然后,把 promxy 作为数据源配置到夜莺或者 Grafana 中,注意 promxy 默认监听的端口是 8082,之后,就可以查询这个数据源的数据做测试了。同时查到了两个时序库的数据,挺好的。

2024-05-24 10:44:08 775

原创 夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动

夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。

2024-05-23 14:18:12 1066

原创 夜莺监控(Nightingale)上线内置指标功能

Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,可以方便做知识沉淀,让普通用户也能开箱即用。

2024-05-13 11:57:09 783

原创 Prometheus 监控平台组件深度讲解

Prometheus 的重要性和流行度已经无需多言。直入主题,本文对 Prometheus 监控平台的各个组件做深度讲解,希望能帮助读者更好地理解 Prometheus。

2024-05-11 10:49:35 659

原创 已经有 Prometheus 了,还需要夜莺?

从夜莺官网摘出一段夜莺项目介绍:夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。

2024-05-09 18:06:15 565

原创 细说夜莺监控系统告警自愈机制

夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。

2024-05-08 17:00:50 1081

原创 你唯一需要的是“Wide Events”,而非“Metrics、Logs、Traces”

Charity Majors 的这句话可能是对科技行业当前可观察性状态的最好总结——完全的、大规模的混乱。大家都很困惑。什么是 trace?什么是 span?一行日志就是一个 span 吗?如果我有日志,我还需要 trace 吗?如果我有很好的 metric,为什么还需要 trace?诸如此类的问题不胜枚举。Charity 与 Honeycomb 可观测系统中的其他杰出人士一起,一直在努力解决这些问题。

2024-04-26 11:53:00 990

原创 手摸手教你把Ingress Nginx集成进Skywalking

然而在运用Skywalking的过程中,我们常常更关注服务之间的调用链路、性能数据,往往会忽略流量入口(网关)到服务之间的Trace串联,导致我们经常在网关层面观测到一个错误调用后,无法通过TraceID快速查看本次调用的链路,从而白白浪费宝贵的排障时间。将日志接入 Flashcat 的日志分析子系统生成报表,在这张报表中可以看到对应的域名、接口、流量、成功率等(当然,这些维度都可以自定义),在创建报表的时候设置好日志中哪个字段是TraceID字段。本文选择第二种方式,将。

2024-04-23 10:57:45 614 1

原创 网络监控:交换机监控新姿势

编者荐语: 本文是社区用户写的文章,通过 Categraf 的 SNMP 插件给网络监控提供了一个新的选择,转给大家参考。大家好,我是小斐呀。关于网络监控领域前面文章主要是基于 SNMP Exporter + Prometheus + Grafana 的架构中介绍如何使用和部署,往期文章。接下来我们基于前面的文章做一些扩展,替换前面的架构组件,使其更加友好和方便,并且性能和扩展性进一步提高;在此我们把采集器从替换为Categraf,把Prometheus替换为时序数据库,

2024-04-19 15:09:54 983

原创 写了一个 SRE 调试工具,类似一个小木马

远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件。是一个 Web Server,通过 HTTP 请求来操作机器,类似一个小木马。当然,因为是一个 Web Server,所以也提供了打印 HTTP 请求的能力,方便调试 Webhook 场景。下面给大家演示一下。

2024-04-18 11:27:38 812

原创 夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署

夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。

2024-04-17 19:24:51 1027

原创 SRE 必备利器:域名 DNS 探测排障工具

夜莺是一款开源云原生监控工具,是中国计算机学会接受捐赠并托管的第一个开源项目,在GitHub上有超过8000颗星,迭代发布了超过100多个版本,上百位社区贡献者,是国内领先的开源可观测性解决方案。访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。快猫星云,让可观测性数据更有价值!

2024-04-12 16:52:54 382

原创 关于 ulimit 的两个天坑

稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误,这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置,有哪些需要注意的点呢?本文给大家做一个介绍,希望对大家有所帮助。

2024-04-03 15:22:03 611

原创 可观测建设实践之 - 日志分析的权衡取舍

本文介绍了稳定性保障中日志分析系统建设面临的问题、挑战、需求和建设中的权衡取舍。并介绍了 Flashcat 如何解决这些问题,做到效果和成本最佳,也最具落地的可行性。

2024-04-02 10:46:30 786

原创 老张,你的服务是不是挂了?论全局 SLI 的重要性

故而,我们希望这些服务之间有横向依赖关系,通常可以从 tracing 系统自动获取,如果没有 tracing 系统,也可以用 eBPF 或手工建立这个关系,手工建立其实也不麻烦,你对你的服务熟悉,你只需要配置你自己的服务即可,全公司可能 500 个微服务,最终是由 200 多个人分别去建立,每个人配置一两个微服务,也不是很难。的三层关系,底层服务如果出问题,问题上浮,在最终的系统层面画个红 x 之类的,首页只展示各个系统的健康状况,系统的数量通常不会特别多,就可以做到一目了然。

2024-03-28 10:47:18 835

原创 别想宰我,怎么查看云厂商是否超卖?详解 cpu steal time

如果你在物理机上查看这个指标,这个指标必然是 0,只有虚拟机才需要关注这个指标。我们看一下 CPU steal time 的定义(来自ibm.com):虚拟机毕竟是被虚拟出来的,虚拟机要用到 CPU,最终还是要通过宿主机的 CPU 来完成,如果宿主机的 CPU 正在为其他虚拟机服务,那么当前虚拟机就会等待,这个等待的时间就是 steal time。CPU 跟内存不一样,内存是可以做到硬限制的,如果云厂商超卖,CPU 抢占确实有可能会影响到你的应用程序,所以,我们需要关注这个指标。具体如何查看呢?

2024-03-26 19:44:23 414

原创 天天报警值班,老子不干了

最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天 OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己 OnCall?三哥一脸苦涩:我们组算上老板 4 个人,老板说另外俩人不靠谱,不让他俩 OnCall,还给我画饼,说 OnCall 能提升我的技术,年底绩效普通,那俩哥们安心干开发,绩效都比我好,TMD 心塞,老子不伺候了。。。下面,据说是三哥接电话告警时的萧瑟背影。。。显然,三哥这是遇人不淑了。

2024-03-23 16:17:36 578

原创 使用 nsenter 排查容器网络问题

如上,使用 bash 命令进入 net namespace,然后执行 ifconfig,看到 IP:172.22.0.6,显然这就是容器的 IP,说明 nsenter 达成所愿,之后在这个 bash session 内执行 curl、telnet 之类的,就相当于在容器里执行一样的效果。这个需求比较典型,这里教大家一个简单的方法,使用 nsenter 进入容器的 net namespace,即可使用宿主机的 curl、ip、ifconfig 等命令,其效果,就跟进入容器中执行是一样的。

2024-03-19 11:14:32 926

原创 Zenlayer如何将万台设备监控从Zabbix迁移到Flashcat

Zenlayer 与快猫星云技术专家一起,重点从全球化架构、边缘计算、网络监控、Zabbix 替代等方面出发,根据 Zenlayer 自身的业务特点,结合快猫星云在统一监控和稳定性保障方向的最佳实践,构建起了 Zenlayer 新一代的统一监控方案,最终也实现了对 Zabbix 的完美替代,解除了困扰已久的难题。

2024-03-18 20:21:45 472

原创 5 分钟小工具:使用 dive 分析 docker 镜像

dive 工具可以做这些分析。dive 的 github 地址是,小巧玲珑,MIT 开源协议,42.9k 的 star。

2024-03-16 17:35:09 570

原创 Vector + ClickHouse 收集日志

目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse。至于日志的可视化,后面再单独介绍,后面夜莺会把日志可视化能力下放到开源版本,之前跟映客的兄弟们交流准备一起搞,可惜迟迟没有抽出时间。别急,会有的,本文先把前半段完成,即日志的收集 + 传输 + 清洗 + 存储。存储显然是 ClickHouse,前面三个环节,使用 Vector 来完成。

2024-03-15 14:46:05 1286

原创 Flashcat与出行科技企业一起实践多云可观测

经过双方技术专家的共同努力,根据出行业务自身的特点和行业特性,结合快猫星云在多云统一监控方向的最佳实践,构建起了统一的监控平台和高效的故障发现定位体系,最终为公司的多云架构的落地增强了关键一环。

2024-03-14 11:45:16 584

原创 邮件告警还能这么玩?!

1.灵活的值班策略:Flashduty 提供灵活的值班和轮班管理功能。通过可定制的值班表和通知规则,确保告警责任制,服务持续可用。2.强大的降噪能力:Flashduty 提供强大的告警降噪能力,充分应对告警风暴、告警抖动等场景。降噪比例至多可达 99%,让 OnCall 人员把更多精力花在业务上。3.告警自动化能力:Flashduty 提供事件订阅、自定义操作等扩展以及一系列 API 能力,可以根据设定的规则和条件,自动触发响应动作或执行特定的操作,减轻人工干预的负担,提高效率和准确性。

2024-03-08 10:54:35 809

原创 数据可视化基础篇-图形语法

要解决这个问题我们首先需要理解数据可视化的生成规律或者说是“语法”,目前主流的数据可视化理论认为,可视化是由基础标记(Mark)沿着某个或是某些视觉通道(Visual channel)进行映射的结果。以下面图为例,图1柱状图其表现数据的标记为"线",柱的纵向长度是视觉通道。图2散点图多了一个横向视觉通道且以“点”为标记。图4多了一个尺寸的视觉通道。通常情况会把形状、颜色的色调、空间位置认定为分类性质的视觉通道,其他的比如直线长度、区域面积、角度、颜色饱和度亮度等大部分认定为定量性质的视觉通道。

2024-03-06 14:10:58 467

原创 OpenTelemetry Logging 思维导图,收藏

这是从 logs 下钻到 traces 的推荐标准做法,即在 logs 中打印 TraceId、SpanId 等 Trace Context信息,从而精确的根据 TraceId/SpanId 关联到相对应的 traces。相比 metrics 和 traces,logs 是“可观测性三支柱”中历史包袱最重的监控数据类型,日志的格式更随意,缺乏标准和规范。现实情况中,logs、traces、metrics 在收集、传输、存储整个链条上,存在相互割裂的情况,导致在对可观测性数据进行统一分析的时候,难以打通。

2024-03-05 11:30:11 959

原创 网络问题排查必备利器:Pingmesh

从DB中查到配置后,判断是机柜模式还是交换机模式,因为这两种方式,其筛查Server IP的逻辑会有差异,之后需计算出每个数据中心,待探测的机柜或交换机是哪些,以及其下的Server Ip分别是多少,做好数据准备工作。此外,我们需新起一个协程,定时去对比新用户配置和已生成的pinglist是否一致,因为可能在我们生成新的pinglist后的一段时间内,用户变更或新增、删除了数据中心配置和规则,那需要将已生成的pinglist进行对比清理,避免用户配置变更后,依旧使用老的配置去探测,导致数据不准问题。

2024-03-04 10:18:12 931

原创 手把手教你免费用Flashduty做消息通知

协作空间是通知和协作的基本单位,FlashDuty 主要用处是做告警事件的协同 OnCall 处理,咱们这里是想白嫖其消息通道能力,所以随便创建个默认协作空间即可。Flashduty的分派策略非常灵活,可以遵循个人,也可以遵循团队,还有可以设置不同的优先级,不同的IM渠道,简单起见,可以先按下图的配置保存就好。因为它们很贵且没有免费额度,还需要实名认证,相比之下Flashduty注册简单,不用实名认证,且有免费额度。简简单单一个curl,里边内容可以自定义,收到内容的模版也可以自定义。

2024-03-02 17:08:05 396

原创 2 分钟,了解 4 个极为有用的 MetricsQL 函数

夜莺社区的朋友如果问时序库的选型,我一般都会推荐 VictoriaMetrics,除了其性能、稳定性、集群扩展能力之外,VictoriaMetrics 还扩展了 PromQL,提供了 MetricsQL,即增强了 PromQL 的能力。比如下面介绍的场景,就很适合用 MetricsQL 来解决。

2024-02-19 11:55:42 426

原创 UDP端口探活的那些细节

网络上的udp port scanner 除了发送X , 还有发送0的, 也有根据已知端口,按照协议发送数>据的。简单来说,就是向探测目标发送一个X,观察是否有connection refused,没有的话表明目标端口是打开的(即使对端没有返回任何内容导致超时 )。udp是无连接的,无法用建立连接的形式判断端口。插件最初的设计是需要配置udp的发送字符,并且配置期望返回的字符串,先理一下代码片段的探测逻辑,先向目标写入一个X,观察是否有。是否设置,没有设置,则for循环3次(探测, 遇到报错了,如图。

2024-02-06 17:23:22 959

原创 如何排查常规软件问题 - 面向 Linux 初级用户的教程

笔者从 14 年做开源软件以来,接触了众多 Linux 新手用户,这里我为这类用户总结了一些常见的问题排查方法,希望能帮助到大家。如果你已经工作多年,对于下面提到的思路和方法应该非常熟悉,如果对某一条感到陌生,咳咳,真的不太应该,赶紧补补吧。

2024-02-04 15:49:00 804

原创 史上最简单的日志告警方案,没有之一

如上,我们演示了使用 FlashDuty 做日志告警的全流程,FlashDuty 的告警引擎功能当前是公测阶段,可以免费使用。FlashDuty - 一站式告警响应平台。picobyte,加好友请备注您的公司、姓名、来意 🤝方法论:面向故障处理的可观测性体系建设小总结:从CTO视角来看:如何搭建运维/SRE能力鄙人专栏:运维监控系统实战笔记。

2024-02-02 17:08:06 1432

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除