- 博客(173)
- 收藏
- 关注
原创 开源夜莺支持MySQL数据源,更方便做业务指标监控了
夜莺监控项目最新版本增强告警引擎功能,新增MySQL数据源支持,扩展业务监控能力。此前版本已支持Prometheus、VictoriaMetrics等传统数据源,现进一步丰富数据源类型。本次更新修复了通知媒介保存和Elasticsearch语法报错两个Bug。升级时可从GitHub获取最新发布包,v6/v7版本可平滑升级,建议备份后替换文件。产品特性可通过提供的PPT了解详细功能。
2025-06-11 09:43:31
244
原创 运维想转SRE?先了解这7个原则
软件开发的大部分工作理所当然地集中在创建上,包括 DevOps,这是一个相关但不同的领域,更关注产品的整个生命周期。但系统上线并不意味着工作就完成了。在 Google SRE 指南的前言中,作者指出,“系统总成本的 40%到 90%是在上线后产生的。”SRE 关注上线后的情况,旨在帮助确保产品尽可能保持可用。SRE 最重要的元素是系统可靠性和运行时间。世界上最好的服务如果无法运行,对任何人也没有多大用处。因此,SRE 专注于最小化停机时间并创建可靠的系统。
2025-05-28 08:12:37
989
原创 使用 Feature Flag 的常见错误,SRE 总要懂的一些最佳实践
希望本文能够帮助你更好地理解 Feature Flag 的使用,避免常见的错误和陷阱。Feature Flag 是一个强大的工具,但需要谨慎使用。通过遵循最佳实践,你可以充分利用它们的优势,同时避免潜在的问题。
2025-05-22 17:02:53
858
1
原创 顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智
2025年4月16日,Spotify经历了一次全球性服务中断,影响了除亚太地区外的全球用户。中断持续了约3小时25分钟,原因是Spotify在更改Envoy过滤器的顺序时触发了一个错误,导致所有Envoy实例崩溃。由于Envoy的最大堆大小设置高于Kubernetes的内存限制,Kubernetes不断重启Envoy实例,形成了恶性循环。亚太地区因流量较低未受影响。Spotify通过增加服务器容量缓解了问题,并承诺修复相关bug、改进配置更改发布方式和监控能力,以防止未来类似事件发生。此次事件强调了小变更可
2025-05-20 19:32:14
914
原创 可观测性第四大支柱:配置数据的监控
日志、指标和跟踪仍然是可观测性的关键组成部分,而配置数据代表了第四根支柱,提供了对您系统独特见解。通过实施全面的配置数据监控,组织可以增强其安全态势、确保合规性、优化成本,并更深入地了解其基础设施。随着系统变得越来越复杂和分布式,配置数据监控的价值将只会增加。那些认识到这一第四支柱并将其纳入其可观测性策略中的组织,将更好地处于理解、排查故障和优化其日益复杂基础设施的有利位置。译者注:原文作者这个观点值得借鉴,但是对于故障定位等场景真的那么有用吗?也未可知。
2025-05-07 11:25:52
979
原创 又来一个挑战 ElasticSearch 的,初识 SigLens
Elastic Stack 在日志领域具备无与伦比的地位,各类新兴的开源项目都声称比 Elastic 更节省资源,同时检索速度也不慢,比如 ClickHouse、Loki、OpenObserve、VMLogs,今天我们来看看另一个项目:SigLens。
2025-04-21 08:49:30
926
原创 AI 和可观测性到底如何整合?
这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景,看看能迸发什么样的助力。上面的思路确实可以放到开源夜莺项目(Nightingale)里,作为一款开源软件,在一些功能上做增强,确实会变得更性感。但这些增强都是面向“点”的,有没有面向“面”的更让人眼前一亮的思路呢?
2025-04-17 07:31:59
827
原创 夜莺监控新版,中心端连不通的时序库也可以告警了
本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。
2025-03-31 10:38:27
927
原创 夜莺监控 v8.0 新版通知规则 | 对接飞书告警
夜莺监控 v8.0 版本抽象了通知规则的概念,本文讲解在新版通知规则里如何对接飞书,发送飞书告警,既可以支持普通飞书消息也可以支持飞书卡片消息。
2025-03-17 10:48:18
480
原创 夜莺监控 v8.0 新版通知规则 | 对接企微告警
夜莺监控v8.0版本引入了新版通知规则,可以很方便对接钉钉、企微、飞书,本文介绍如何对接企微告警
2025-03-13 14:45:52
673
原创 夜莺监控 v8.0 新版通知规则 | 对接钉钉告警
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉通知
2025-03-07 16:03:05
877
2
原创 夜莺监控巨大革新:抽象出通知规则,增强告警通知的灵活性
夜莺监控在 v8.beta7 中做了一个巨大革新,抽象了一个通知规则的概念,来增强告警通知的灵活性,解决多年来的夙愿。
2025-03-06 11:03:01
986
原创 夜莺监控 - 边缘告警引擎架构详解
夜莺类似 Grafana 可以接入多个数据源,查询数据源的数据做告警和展示。但是有些数据源所在的机房和中心机房之间网络链路不好,如果由 n9e 进程去周期性查询数据并判定告警,那在网络链路抖动或拥塞的时候,告警就不稳定了。所以,夜莺引入了边缘告警引擎:n9e-edge。n9e-edge 进程部署在边缘机房,和边缘机房的时序库部署在一起,由 n9e-edge 负责边缘机房的告警判定工作,这样整个架构就稳定的多了。
2025-02-25 12:01:17
1041
原创 Prometheus 历史峰值看不到了,这监控不准啊
Prometheus 生态的 step 参数是一个很重要的概念,对于监控数据的查询有着重要的影响。大部分情况下,用户不需要关心这个参数,因为监控系统会自动计算 step,以保证查询效率和数据展示的合理性。但是如果你想看原始数据,或者想了解监控数据的采集频率,那就需要了解 step 参数的含义,以及如何手工指定 step 参数啦。
2025-02-24 11:03:13
491
原创 是时候解决告警事件数据孤岛问题了
大家有没有发现,随着公司发展,慢慢引入了越来越多的监控、可观测性的系统,云上的、云下的,开源的、商业的,通用的、特定产品的,导致告警事件分散在非常多的地方,形成一个一个的数据孤岛。比如下面这些监控系统,你们应该不止用了一个吧:上图中有些系统你可能会困惑,比如 OceanBase,明明是个数据库,为啥出现在这里。因为 OceanBase 自己内置有自己的监控能力,没有复用 Prometheus 之类的通用监控系统,这就是上面我提到的特定产品的监控。
2025-02-18 12:10:11
683
原创 夜莺监控发布 v8.beta5 版本,优化 UI,新增接口认证方式便于鉴权
夜莺监控发布v8.beta5版本,重点优化了告警规则配置的UI,同时支持用户token认证鉴权方式,简化接口调用,便于和公司内部系统对接
2025-02-17 11:03:18
1081
原创 告警事件如何与 CMDB 打通附加更多元信息
告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。
2025-02-10 11:20:13
800
原创 Grafana 统一可视化了,告警如何统一?
对于大部分公司,通常都不止一套监控、可观测性相关的系统,云上的、云下的,开源的、商业的,指标的、日志的、链路的,各个系统体验不同,权限难管,如何统一化并为各个团队赋能,是很多技术负责人极为头疼的问题。
2025-01-20 15:26:54
1238
原创 夜莺监控突破一万 star,这是汗水,也是鞭策
夜莺监控项目在上周突破了一万 star,算是一个小小的里程碑。本文聊聊做开源这几年的心路历程。一些小小的感悟。
2024-12-31 15:12:35
936
原创 夜莺 v8 第一个版本来了,开始做有意思的功能了
夜莺 v8 发布了第一个 beta 版本,增强了机器告警的灵活性,支持阈值的覆盖,也简化了部署,一个二进制即可拉起服务,方便快速部署测试,另外也支持了 webhook 的 proxy 方便内网环境发送告警
2024-12-26 11:54:48
1125
原创 OpenTelemetry 101:面向 IT 领导者和爱好者的非技术指南
OpenTelemetry是一个开源可观测性项目,包含一组 API、库、代理和埋点标准。使用 OpenTelemetry,开发人员可以收集和处理来自应用程序、服务和系统的遥测数据。为了理解这意味着什么,我们首先看一下两个核心概念:可观测性和遥测。OpenTelemetry 是一个开源项目,旨在标准化遥测数据的收集和处理。通过提供一组 API、库和代理,OpenTelemetry 使开发人员能够收集、处理和可视化来自应用程序、服务和系统的遥测数据。
2024-12-05 09:47:26
949
原创 从仪表盘探索 MongoDB 关键指标
通过每个 panel 的研读,我们对 MongoDB 的监控知识又前进了一步,要想彻底弄懂还需要研究 MongoDB 的文档和原理。本文的探索希望给大家一些学习这类知识的方向。
2024-12-02 18:14:36
1158
原创 Zabbix 和 Prometheus 选型对比
Zabbix 和 Prometheus 无疑是开源监控领域最厉害的两个扛把子,在企业落地选型时应该如何做选择呢?本文尝试从数据采集、存储、告警、可视化、事件分发等多个方面做一个对比
2024-11-07 15:33:00
676
原创 手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch
Fluentbit 是非常流行的日志采集器,作为 Fluentd 的子项目,是 CNCF 主推的项目,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。
2024-11-05 11:04:56
1065
原创 VictoriaMetrics 中文教程(10)集群版介绍
VictoriaMetrics 集群版也是开源的,但是维护更复杂,毕竟组件更多。如果数据量低于每秒一百万个数据点,建议使用单节点版本,而不是集群版本。单节点版本可以完美地适应 CPU 核心数、RAM 和可用存储空间。与集群版本相比,单节点版本更易于配置和操作,因此在选择集群版本之前请三思。VictoriaMetrics 集群版相比单机版,更适合大规模的监控数据存储和查询。但是,集群版的维护和运维成本更高,需要更多的硬件资源。在选择集群版之前,请三思。
2024-10-29 07:44:10
905
原创 夜莺监控的机器支持挂载到多个业务组了
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。
2024-10-08 14:54:34
996
原创 Datadog 监控最佳实践 | 收集正确的数据
本文是Datadog“高效监控”系列的第一篇,后面还会有第二篇《》和《监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必要条件。无论您的监控数据采用何种形式,统一的主题都是:收集数据很便宜,但在需要时没有获得数据可能会很昂贵,因此您应该监测一切,并合理地收集所有有用的数据。本系列文章源自我们为客户监控大型基础设施的经验。它还借鉴了和的工作。
2024-09-14 09:57:01
688
原创 服务稳定性保障的五大误解
服务稳定性保障的五大误解》总结了服务稳定性保障中常被混淆误解的五个概念,可能还有更多的概念未被清晰的定义,希望以此为鉴,大家一起推动服务保障领域的标准化、量化和最佳实践。后面还将谈谈稳定性保障中常见的错误做法,敬请期待,也欢迎交流探讨。
2024-09-06 15:27:49
1012
原创 企业分享 - 益丰大药房监控升级之路
益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。益丰有体量庞大的研发运维团队,有体量庞大的 IT 设施和服务,为了能够更好的监控这些设施和服务,益丰在多年前就开始建设监控系统,本文分享益丰的监控升级之路,来自益丰的运维团队,希望对你有所启发。
2024-09-04 17:16:38
1174
原创 无需推翻既有的建设,这个可观测性产品思路清奇
详情中可以看到,商品实时下单量这个关键业务指标暴跌,在某些时刻直接跌到0了,这是一个明显的故障,用户可以在暴跌的位置点击鼠标,就可以看到那些相关的服务是否健康,不健康的直接红色标注,用户就可以快速定位到故障服务,比如这里明显看到。Flashcat 的做法,主打一个知识沉淀复用,平时用户定位故障时,先看什么数据,再看什么数据,都可以在 Flashcat 里沉淀下来。云上的、云下的,开源的、自建的、商业的,网络的、服务器的、数据库的、中间件的、应用的、业务的,指标的、日志的、链路的、事件的。
2024-09-03 11:26:39
1078
原创 海大集团的可观测平台建设实践
海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌影响力,海大集团连续5年榜上有名,上榜2024年《福布斯》全球企业2000强第1415位。
2024-08-30 11:58:18
851
原创 Prometheus 告警恢复时,怎么获取恢复时的值?
Prometheus 告警事件中的$value表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的$value仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢?不废话,先说原理。
2024-08-29 17:19:32
1071
1
原创 关于告警,要想做好,从这些方面着手
现实情况中很多监控工具发送出来的告警只有光秃秃的有限的几个字段,比如机器名、监控项、阈值,如果能对接外部元数据(比如CMDB),对告警的字段进行扩充,那就可以利用扩充出来的字段,更自动化的分发告警,以及在处理故障的时候,让工程师能快速判断告警的影响面和严重程度。:在告警处理的过程中,可以随时把相关的人员拉进来协同(通常,把相关人员拉齐,问题就解决了一半,如果能自动创建 warroom 就更好了),添加协同人时需要准确及时的通知到对方,并把告警处理的过程和时间线,清晰的保留下来,供协作方快速了解全貌。
2024-08-28 15:01:37
930
原创 SRE 必备知识 - Kafka 探秘之零拷贝技术
如果你了解过 Kafka,那么它用到的一个性能优化技术可能会引起你的注意 – 操作系统的零拷贝(zero-copy)优化。零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直接绕过 Kafka broker 这个 Java 程序。这可以节省一些额外的拷贝,节省一些用户态和内核态的切换。让我们看一个例子。
2024-08-27 11:36:37
613
翻译 使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标
SpanConnector 是 OpenTelemetry Collector 中的一个组件,允许您从跨度(Span)数据中获取指标。当您拥有强大的跟踪功能但您的语言或框架缺乏原生指标支持时,这尤其有用。将跟踪(Trace)转换为指标可以提供有关系统性能和运行状况的宝贵见解,而无需单独的插桩埋点。这种统一的方法创建了更全面的可观测性视野,并减少了管理两个不同埋点系统的开销。
2024-08-26 11:46:56
156
原创 9k star 监控系统,100% 国产,推荐了解
Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控;推出时间较早,社区活跃度较高Prometheus 是云原生环境的监控利器,支持多维度的指标数据,自研存储引擎,但是告警引擎是单点,使用配置文件管理规则,缺少权限化管理的 WebUI,如果把监控能力开放给公司所有团队,让各个团队自服务,就比较困难随着云的发展,Zabbix 感觉是依托于存量市场,而 Prometheus 是未来的大势所趋。那 Prometheus 的缺点应该如何解决呢?
2024-08-20 10:54:43
1257
转载 可观测性与传统监控的区别和联系
可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
2024-08-14 17:59:12
133
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人