运维
文章平均质量分 78
key_3_feng
网络工程师
展开
-
在技术岗位上如何快速成长
要选择有复利效应且天花板高的领域。原创 2023-08-16 21:50:50 · 109 阅读 · 0 评论 -
如何保证事件的闭环处理
所谓的闭环,就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。原创 2023-08-15 16:11:23 · 359 阅读 · 0 评论 -
如何高效地进行事件降噪
典型的原则有两个,一是要求所有的告警都有 Runbook,二是要求分级合理。对于告警规则,还要注意生效时间的配置、发送频率、最大发送次数的配置。对于告警事件,要做好预先屏蔽、抑制,对于最后产生的告警,要做到聚合发送,减少打扰。原创 2023-08-14 11:34:17 · 151 阅读 · 0 评论 -
使用日志来监控应用
根据提取规则运行的位置可以分为两类做法,一个是在中心端,一个是在日志端。原创 2023-08-13 12:10:47 · 237 阅读 · 0 评论 -
使用埋点方式对应用监控
两种埋点监控应用的方式,一个是 StatsD,一个是 Prometheus,这两种方式都是跨语言的埋点方案,业界应用广泛。StatsD 是推模式,采用 UDP 协议,各类计算逻辑挪到了 StatsD Server 中,对应用本身不会造成影响。Prometheus 是拉模式,SDK 的逻辑跑在应用进程里原创 2023-08-12 00:29:25 · 367 阅读 · 1 评论 -
监控Kubernetes 控制面组件的关键指标
重点介绍控制面的组件监控,包括 APIServer、Controller-manager、Scheduler、etcd 等原创 2023-08-11 16:23:06 · 1109 阅读 · 0 评论 -
监控Kubernetes Node组件的关键指标
工作负载节点相关的组件,包括 Kube-Proxy、Kubelet、容器负载。原创 2023-08-10 22:14:04 · 950 阅读 · 0 评论 -
监控Elasticsearch的关键指标
Elasticsearch 的核心职能就是提供搜索服务,搜索的数据要提前建立索引,为了支持海量数据,Elasticsearch 还能组成集群,所以搜索性能、索引性能、集群健康状况以及集群中各个节点的健康状况,就是我们要监控的核心指标。原创 2023-08-09 22:29:51 · 727 阅读 · 0 评论 -
监控Kafka的关键指标
Kafka 是现代分布式系统架构中非常常见的组件,Kafka 运行是否正常,消息消费是否正常,都需要重点关注。监控可以从 4 个层面着手,机器、JVM、Kafka Broker、Lag。原创 2023-08-08 15:21:12 · 1922 阅读 · 0 评论 -
监控Redis的关键指标
因为 Redis 也是一个对外服务,按照 Google 的四个黄金指标的法则来梳理重要指标。原创 2023-08-07 22:07:36 · 652 阅读 · 0 评论 -
MySQL的关键指标及采集方法
MySQL 是个服务,所以我们可以借用 Google 四个黄金指标的思路来解决问题。原创 2023-08-06 21:50:18 · 379 阅读 · 0 评论 -
常见监控网络链路和网络设备的方法
网络监控主要包括网络链路监控和网络设备监控,通常系统运维人员会比较关注。原创 2023-08-05 23:13:20 · 1584 阅读 · 0 评论 -
操作系统需要重点关注指标
机器监控的手段有两种,基于 Agent 的这种监控手段走的是带内业务网络,也就是带内监控,这种方式最为常用;另外一种机器监控手段是带外监控,走的是带外网络,通过 IPMI、SNMP 等协议,常用于采集硬件的物理指标,比如系统温度、风扇速度、电源电压等。原创 2023-08-04 22:23:03 · 358 阅读 · 0 评论 -
监控数据的采集方式及原理
总的来看,OS 层面的监控需要把 Agent 部署到机器里,读取一些本地的特殊文件,执行一些命令来获取监控数据;数据库、中间件的监控,大都是远程采集,只是协议各异,需要做一定的适配;应用监控的话,典型的采集方式有两种,一个是代码埋点,一个是日志解析。原创 2023-08-03 22:53:21 · 1401 阅读 · 0 评论 -
监控对象都有哪些分类
监控分类,共有业务、应用、组件、资源四个大类。原创 2023-08-02 22:24:54 · 290 阅读 · 0 评论 -
监控数据采集的方法论
目前业界比较流行的方法论有 Google 的四个黄金指标、RED 方法、USE 方法。原创 2023-08-01 22:45:01 · 1159 阅读 · 0 评论 -
PromQL常见的使用场景
PromQL 的两个核心价值,一个是筛选,一个是计算原创 2023-07-31 21:48:54 · 356 阅读 · 0 评论 -
Prometheus中的关键设计
Prometheus 非常注重标准制定和生态建设、主要使用拉模式辅以推模式、监控目标动态发现机制、配置管理非常简单,直接使用 Yaml 文件、查询语言就是 PromQL。原创 2023-07-30 21:42:42 · 797 阅读 · 0 评论 -
一个监控系统的典型架构
监控典型架构包括:采集器、时序库、告警引擎、数据展示。原创 2023-07-29 21:49:18 · 1606 阅读 · 0 评论 -
监控指标与监控类型
监控:这个词在不同的上下文会有不同的语义,有的时候表示数据采集和可视化,有的时候表示整个监控系统。不过不管怎么理解,通常都不影响交流。原创 2023-07-28 21:07:02 · 372 阅读 · 0 评论 -
主流开源监控系统一览
每种方案各有优缺点,如果你的主要需求是监控设备,推荐你使用 Zabbix;如果你的主要需求是监控 Kubernetes,可以选择 Prometheus+Grafana;如果你既要兼顾传统设备、中间件监控场景,又要兼顾 Kubernetes,做成公司级方案,推荐你使用Nightingale。原创 2023-07-27 22:32:30 · 2652 阅读 · 0 评论 -
深入理解容器镜像
一旦这个镜像被发布,那么你在全世界的任何一个地方下载这个镜像,得到的内容都完全一致,可以完全复现这个镜像制作者当初的完整环境。这,就是容器技术“强一致性”的重要体现。原创 2023-06-28 23:22:41 · 159 阅读 · 0 评论 -
容器的隔离与限制
容器技术中一个非常重要的概念,即:容器是一个“单进程”模型。原创 2023-06-27 22:47:41 · 210 阅读 · 0 评论 -
架构师在目标确认过程中的工作
要确认架构活动的三个核心角色,也就是决策者、赞助者和执行者。原创 2023-05-08 22:33:17 · 366 阅读 · 0 评论 -
什么是架构活动中的目标确认
为架构活动确认一个正确目标,是架构师能为架构活动做出最大贡献的环节。原创 2023-05-07 22:01:49 · 418 阅读 · 0 评论 -
架构活动中的环境搭建
架构活动的第一步,就是为活动搭建一个架构环境。不过这个重要环节在多数架构活动中被完全忽略了,甚至有些做了多年架构师的人,都不明白这个环节的价值所在。原创 2023-05-06 22:57:37 · 439 阅读 · 0 评论 -
架构活动中的沉淀知识
一个理想的知识沉淀过程,既包括一个被动的、记录活动历史的过程,还包括一个主动的、驱动价值创造的思想实验过程。原创 2023-05-05 22:08:30 · 152 阅读 · 0 评论 -
架构中保障交付关键动作之复杂度控制
不论哪种交付方案,好处都在于整个交付过程跟一个松耦合的灰度发布的过程是类似的,以便你在小范围内试错,提前发现问题。原创 2023-05-04 00:09:18 · 518 阅读 · 0 评论 -
架构中保障交付关键动作之降低不确定性
不确定性和复杂度也是交付架构活动所面临的两大困难点。原创 2023-05-03 22:23:56 · 454 阅读 · 0 评论 -
架构中的控制风险
明智的冒险会带来价值的回报。冒险是有代价的,但我们作为架构师就是要对这个代价了然于胸。原创 2023-05-02 00:59:01 · 1065 阅读 · 0 评论 -
架构中如何建设共识
我们必须理解参与者的核心利益诉求,最终在一个相对公平且可以长期维持的机制下做利益边界的划分。原创 2023-05-01 16:15:24 · 427 阅读 · 0 评论 -
架构师在互联网时代面临的新挑战
需要帮助团队抵抗反射式的研发行为、独立决策的研发模式、分散的研发团队、普遍存在的沟通障碍和认知差异,以及高风险、高工作强度和高复杂度的场景,最终保障架构活动以高确定性完成目标。原创 2023-04-30 15:04:18 · 913 阅读 · 0 评论 -
架构师能在架构活动中起到哪些作用?
我们需要从架构活动全生命周期的维度,去挖掘架构师在每个生命周期节点的具体工作。原创 2023-04-29 17:04:29 · 309 阅读 · 0 评论 -
架构师应该关注哪些关键节点?
在整个周期中,一共有八个需要关注的节点。原创 2023-04-28 15:49:56 · 1191 阅读 · 0 评论 -
架构师的六大生存法则
在信息化时代,我们获取这些规律并不难,难的是怎么将这些规律准确地应用到软件架构活动中去。原创 2023-04-27 15:08:55 · 428 阅读 · 0 评论 -
故障复盘的黄金三问与判定三原则
故障是系统运行的常态,正常才是特殊状态原创 2023-04-26 22:07:10 · 913 阅读 · 0 评论 -
设定 SLO 有哪些原则
我们在设定 SLO 时的要求也是不同的,具体来说,可以采取下面 4 个原则。原创 2023-04-25 22:39:14 · 503 阅读 · 0 评论 -
如何衡量 SLO 的有效性?
SLO 达成情况、人工投入程度、用户满意度。原创 2023-04-24 22:12:13 · 492 阅读 · 0 评论 -
快速识别 SLI 指标的方法:VALET
SLI,Service Level Indicator,服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。原创 2023-04-23 20:14:24 · 560 阅读 · 0 评论 -
设定系统稳定性目标要考虑的 3 个因素
这个问题其实并没有标准答案,到底定“几个 9”主要取决于以下三个因素。原创 2023-04-22 23:03:49 · 255 阅读 · 0 评论