![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
FlashDuty
文章平均质量分 84
夜莺云原生监控
Nightingale | 夜莺监控,一款先进的开源云原生监控分析系统,Prometheus Enterprise Edition,Prometheus企业级版本,隶属中国计算机学会开源发展委员会
展开
-
天天报警值班,老子不干了
最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天 OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己 OnCall?三哥一脸苦涩:我们组算上老板 4 个人,老板说另外俩人不靠谱,不让他俩 OnCall,还给我画饼,说 OnCall 能提升我的技术,年底绩效普通,那俩哥们安心干开发,绩效都比我好,TMD 心塞,老子不伺候了。。。下面,据说是三哥接电话告警时的萧瑟背影。。。显然,三哥这是遇人不淑了。原创 2024-03-23 16:17:36 · 577 阅读 · 0 评论 -
邮件告警还能这么玩?!
1.灵活的值班策略:Flashduty 提供灵活的值班和轮班管理功能。通过可定制的值班表和通知规则,确保告警责任制,服务持续可用。2.强大的降噪能力:Flashduty 提供强大的告警降噪能力,充分应对告警风暴、告警抖动等场景。降噪比例至多可达 99%,让 OnCall 人员把更多精力花在业务上。3.告警自动化能力:Flashduty 提供事件订阅、自定义操作等扩展以及一系列 API 能力,可以根据设定的规则和条件,自动触发响应动作或执行特定的操作,减轻人工干预的负担,提高效率和准确性。原创 2024-03-08 10:54:35 · 808 阅读 · 0 评论 -
手把手教你免费用Flashduty做消息通知
协作空间是通知和协作的基本单位,FlashDuty 主要用处是做告警事件的协同 OnCall 处理,咱们这里是想白嫖其消息通道能力,所以随便创建个默认协作空间即可。Flashduty的分派策略非常灵活,可以遵循个人,也可以遵循团队,还有可以设置不同的优先级,不同的IM渠道,简单起见,可以先按下图的配置保存就好。因为它们很贵且没有免费额度,还需要实名认证,相比之下Flashduty注册简单,不用实名认证,且有免费额度。简简单单一个curl,里边内容可以自定义,收到内容的模版也可以自定义。原创 2024-03-02 17:08:05 · 396 阅读 · 0 评论 -
2 分钟,了解 4 个极为有用的 MetricsQL 函数
夜莺社区的朋友如果问时序库的选型,我一般都会推荐 VictoriaMetrics,除了其性能、稳定性、集群扩展能力之外,VictoriaMetrics 还扩展了 PromQL,提供了 MetricsQL,即增强了 PromQL 的能力。比如下面介绍的场景,就很适合用 MetricsQL 来解决。原创 2024-02-19 11:55:42 · 423 阅读 · 0 评论 -
史上最简单的日志告警方案,没有之一
如上,我们演示了使用 FlashDuty 做日志告警的全流程,FlashDuty 的告警引擎功能当前是公测阶段,可以免费使用。FlashDuty - 一站式告警响应平台。picobyte,加好友请备注您的公司、姓名、来意 🤝方法论:面向故障处理的可观测性体系建设小总结:从CTO视角来看:如何搭建运维/SRE能力鄙人专栏:运维监控系统实战笔记。原创 2024-02-02 17:08:06 · 1425 阅读 · 0 评论 -
告警恢复时,如何拿到当前值
在夜莺新版本中,告警规则直接使用 promql 来配置,阈值就包含在 promql 里面,所以恢复时是无法拿到当前值的,因为恢复时监控数据不达阈值,不达阈值就不会返回数据,所以也就无法拿到当前值。Prometheus 也是类似的问题,不过可以通过 go template 中的 query 函数曲线救国,但是不够直观,学习曲线较高。今天给大家介绍两种实现思路来解决这个问题。下面我以 Flashduty 产品为例,截图说明具体配置方式。。原创 2024-02-01 13:25:01 · 897 阅读 · 0 评论 -
专栏:数据库、中间件的监控一网打尽
对于数据库、中间件的监控,目前社区里最为完善的就是 Prometheus 生态的各个 Exporter,不过这些 Exporter 比较分散,不好管理,如果有很多目标实例需要监控,就要部署很多个 Exporter,要是能有一个大一统的 Exporter,具备所有这些 Exporter 的能力就好了。还真有,而且还不止一个,一个是,一个是Cprobe。原创 2024-01-29 19:50:16 · 1261 阅读 · 0 评论 -
专栏:手把手构建生产级监控系统
笔者去年在极客时间发布了一个专栏《》,很多朋友借此梳理了较为体系化的运维监控系统知识,但是限于专栏篇幅,有些手把手实操类的内容没有办法展开,另外时隔一年,监控系统的技术栈也有了一些变化,所以笔者决定在这里把这些内容补充完整。原创 2024-01-25 12:12:43 · 908 阅读 · 0 评论 -
像 Google SRE 一样 OnCall
在 Google SRE 的著作原作名:Site Reliability Engineering: How Google Runs Production Systems)中,Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 OnCall 的。减少琐事,用软件工程的方式解决运维问题。,SRE 至少花 50% 的时间在工程项目上,以减少未来的琐事或为服务增加新功能。根据统计数据显示,琐事的第一大来源是中断性工作,另一个主要来源是OnCall。原创 2024-01-19 16:57:31 · 871 阅读 · 0 评论 -
FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成
服务日历是指在IT系统中用于计划和跟踪服务可用性和维护窗口的日历。典型的像证券交易系统:我们可以设置股市开闭市日期,并在闭市期间静默告警通知。在静默策略中,选择服务日历相比星期模式,具有更大的灵活性。非交易日全天告警通知静默交易日的非交易时间告警通知静默自定义操作本身是一个 Webhook 调用,您可针对不同协作空间的故障增加自定义操作,并在故障详情中手动触发该操作,以实现如快速排障或信息同步。重启主机:当主机内存或 CPU 打满,触发主机重启脚本,快速完成主机重启。原创 2024-01-17 10:34:32 · 882 阅读 · 0 评论 -
Flashduty 案例分享 - 途游游戏
我们主要是游戏项目加平台服务,以非容器环境为主,部分平台类业务有使用K8s;游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。原创 2024-01-10 10:07:17 · 1012 阅读 · 0 评论 -
Flashduty 案例分享 - 益丰大药房
作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。本次采访的是来自的高级运维工程师。益丰大药房是一家连锁零售药房企业,有上万家门店,官网是,已于主板上市,股票代码:603939,颇具规模。:张望老师您好,请问在选择 Flashduty 之前,贵司是如何做告警事件管理和触达的呢?原创 2024-01-08 11:33:55 · 757 阅读 · 0 评论 -
FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用
FlashDuty已经与Zabbix、Prometheus等监控系统实现无缝集成,通过一个简单的webhook就可以把告警系统产生的所有告警事件推送到FlashDuty来管理。每个告警事件的重要性、紧急程度和所属团队可能不同,我们期望可以根据条件将告警路由到不同的协作空间去,再进行后续的处理。通过告警路由,您可以轻松地设置规则和条件,自定义告警的路由路径,确保问题能够迅速得到解决,避免延误或混淆。可以设置多个路由分支以及一个 default 分支,但至少要有一个分支;每个分支可以推送到多个协作空间。原创 2023-11-27 10:34:21 · 421 阅读 · 0 评论 -
FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心
FlashDuty 已支持接入大部分常见的告警系统,我们将推送内容中的大部分信息放到了 Lables 进行展示。尽管如此,我们用户还是会有一些扩展或定制性的需求,比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能,来进一步丰富故障描述。通过自定义字段,您可以添加自定义的元数据,记录特定的故障相关信息,并在故障处理过程中传递和使用这些信息。灵活定义:您可以根据需要创建多个自定义字段,并定义字段的名称、类型、可选项和默认值。常见的自定义字段类型包括文本、下拉列表、Checkbox等。信息关联。原创 2023-10-13 14:11:13 · 171 阅读 · 0 评论 -
FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心
FlashDuty 已支持接入大部分常见的告警系统,我们将推送内容中的大部分信息放到了 Lables 进行展示。尽管如此,我们用户还是会有一些扩展或定制性的需求,比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能,来进一步丰富故障描述。通过自定义字段,您可以添加自定义的元数据,记录特定的故障相关信息,并在故障处理过程中传递和使用这些信息。灵活定义:您可以根据需要创建多个自定义字段,并定义字段的名称、类型、可选项和默认值。常见的自定义字段类型包括文本、下拉列表、Checkbox等。信息关联。原创 2023-09-25 10:58:55 · 95 阅读 · 0 评论 -
FlashDuty Changelog 2023-09-07 | 新增深色模式与主题配置
FlashDuty:一站式告警响应平台,前往免费体验!FlashDuty 现在已经全面支持了深色模式,这为您提供了更柔和的光线和舒适的界面外观。并且,您可以根据自己的喜好和使用环境动态切换深色和浅色模式与主题,提高使用体验的个性化和灵活性。原创 2023-09-25 10:57:48 · 81 阅读 · 0 评论