运维监控系统实战笔记
文章平均质量分 68
zhaoseaside
树立个人IP,探索副业可能
展开
-
运维学习CentOS 7进行Nightingale二进制部署
因为Nightingale需要MySQL保存一些数据,所以可以参考部署MySQL。是可以github上下载Nightingale二进制安装包。是二进制部署的说明。下载文件,下载完成会显示。只有一条消息,并且有这样的字样显示,就表明已经下载完成。创建一个/opt/n9e目录,并把相关文件解压到/opt/n9e里边。把读写执行权限赋予文件属主。进入到目录里边。初始化MySQL数据库里边数据。后台运行。查看一下监控端口状态,发现没有数据,说明没有执行成功。第86行内容改为。原创 2023-10-21 22:22:14 · 1095 阅读 · 1 评论 -
Ubuntu 20.04二进制部署Nightingale v6.1.0和Prometheus
可以看到操作系统版本是20.04可以看到内核版本是5.5.19。进行更新镜像源。更新软件。选择NO,按下。原创 2023-09-28 23:34:16 · 386 阅读 · 0 评论 -
Ubuntu 20.04部署Promethues
把下边的内容都写进去,每敲一行按一下回车键,最后别忘了输入。此文章为9月Day 16学习笔记,内容来源于极客时间。可以看一下解压之后的文件内容。可以看到操作系统版本是。看一下文件里边内容。可以看到服务的状态是。原创 2023-09-27 23:26:54 · 293 阅读 · 0 评论 -
夜莺启动时报dialector() not supported
也没有类似结果,但是我自己在同一台机器上原来是成功启动过的,没有改过任何配置,最后还是在《运维监控系统实战笔记》群里发出自己的问题,由老师回答回答后,才知道应该到。此文章为9月Day 25学习笔记,内容来源于极客时间。查看一下监控端口状态,发现提示的信息是。困扰自己好几天的问题终于解决了。注意两种方法选择其中一种就行了。的信息,这是启动成功了。,这表明没有正常启动。版本不对,在百度上搜索。还有一种解决方法是使用。可以看到启动成功了。原创 2023-09-25 23:29:58 · 424 阅读 · 0 评论 -
Ubuntu 20.04 使用mysql-server_8.0.31-1ubuntu20.04_amd64.deb-bundle.tar安装MySQL 8.0.31
此文章为9月Day 24学习笔记,内容来源于极客时间。下载MySQL文件。输入密码之后,需要用。原创 2023-09-24 20:42:32 · 642 阅读 · 0 评论 -
Categraf v0.3.22部署
此文章为9月Day 23学习笔记,内容来源于极客时间。查看替换之后的效果。原创 2023-09-23 23:37:49 · 241 阅读 · 0 评论 -
监控数据的采集方式及原理
proc采集方法使用频率从高到低依次是读取/proc目录、执行命令行工具、远程黑盒探测、拉取特定协议的数据、连接到目标对象执行命令、代码埋点、日志解析。原创 2023-09-21 22:05:05 · 1295 阅读 · 0 评论 -
监控的分类
业务监控指标是管理层所关注的,一般与企业营收挂钩,或者跟客户主流程相关。服务器上CPU、内存使用率等需要监控,除了这些之外,如果我们想获取硬件模块的健康状况,比如电源电压、风扇转速、主板环境温度等,就需要走 IPMI 协议,通过带外网络采集。上边提到的都是服务器端的监控,还有一个大类是端监控,比如 iOS 应用,我们会关注是否卡顿、有没有崩溃、白屏之类的,这算是另一个领域,这里就不展开介绍了。最后是流量监控,也会用在多个地方,比如机器的网卡流量、交换机的网口流量、机房出口流量,也是整个监控体系的重要一环。原创 2023-09-20 21:01:59 · 277 阅读 · 0 评论 -
监控方法论
主流的监控方法论有谷歌的四个黄金指标、RED和USE。原创 2023-09-19 21:59:47 · 98 阅读 · 0 评论 -
Ubuntu 20.04中Nightingale二进制部署
参考博客可以看到操作系统版本是20.04uname -r可以看到内核版本是5.5.19。进行更新镜像源。更新软件。原创 2023-09-18 23:54:47 · 223 阅读 · 0 评论 -
Ubuntu 20.04中docker-compose部署Nightingale
然后按下回车键,就可以跳转到下边的页面,默认用户名为。此文章为9月Day 17学习笔记,内容来源于极客时间。查看一下监控端口状态,发现有一条数据,说明。在容器里边输入mysql提示符内输入。填上名称和URL,点击测试并保存。登录成功提示暂无数据源,点击。看一下上边拼写错误的地方。可以看到所有容器都启动了。可以看到操作系统版本是。在容器里边启动成功。原创 2023-09-17 23:42:34 · 435 阅读 · 0 评论 -
CentOS 7.6使用mysql-8.0.31-1.el7.x86_64.rpm-bundle.tar安装Mysql 8.0
的提示,我这里的原因是因为自己使用源码把gcc的版本提升到。注意密码在输入过程中不可见。开启任何IP连接MySQL的权限。是社区版的官网,可以选择版本下载。创建专门的tar解压之后存储目录,切换工作目录,相当于进入这个目录,查看随机生成的密码,我的随机密码是。可以看一下解压之后的目录内容。这个命令,意思就是就是把本地的。进行刷新,否则权限就没有生效。时没有指明链接库的正确网址。启动MySQL服务器端。连接客户端,并且输入密码。修改密码使用的命令格式是。安装的一些组件卸载。解压到特定的目录下,原创 2023-09-16 16:23:40 · 519 阅读 · 0 评论 -
Prometheus远程存储方案
默认情况下,Prometheus 收集到监控数据之后是存储在本地,在本地查询计算。由于单机容量有限,对于海量数据场景,需要有其他解决方案。最直观的想法就是:既然本地搞不定,那就在远端做一个集群,分治处理。Prometheus 本身不提供集群存储能力,可以复用其他时序库方案。原创 2023-09-15 22:26:00 · 380 阅读 · 0 评论 -
Prometheus存储容量估算和Prometheus联邦机制
Prometheus最受诟病的一点就是单机存储不好扩展。原创 2023-09-14 22:18:54 · 420 阅读 · 0 评论 -
PromQL的作用
(Prometheus Query Language)是 Prometheus 的查询语言,主要用于时序库查询和二次计算场景。我们可以把时序数据理解成一个以时间为轴的矩阵,你可以看一下我给出的例子,例子中有三个时间序列,在时间轴上分别对应不同的值。指标(metric):metric name 和描述当前样本特征的 labelsets。每一个点称为一个样本(sample),样本由三部分组成。时间戳(timestamp):一个精确到毫秒的时间戳。值(value):表示该时间样本的值。原创 2023-09-13 20:58:53 · 155 阅读 · 0 评论 -
Prometheus中关键设计
Prometheus中关键设计有以下几点:标准先行,注重生态主要使用拉模式,更好解耦,辅助推模式监控目标动态发现机制基于配置文件的管理方式灵活的查询语言。原创 2023-09-12 22:33:24 · 119 阅读 · 0 评论 -
运维学习之部署Grafana
此文章为9月Day 11学习笔记,内容来源于极客时间。然后回到“Dashboards”页面,选择数据源。后台下载压缩包,然后按一下回车键。发现有两条记录,就是还在下载中。就可以成功解决上边问题启动起来。,然后点击“Log in”按钮。选择“Dashboards”。这样的字样,就是下载完成。在自己浏览器里边输入服务器。先点击输入框,然后点击“发现有一条记录,并且。原创 2023-09-11 23:20:01 · 980 阅读 · 0 评论 -
运维学习之部署Alertmanager-0.24.0
参考先完成prometheus部署。参考安装node_exporter。原创 2023-09-10 23:43:31 · 245 阅读 · 0 评论 -
运维学习之采集器Node-Exporter 1.3.1安装并使用
参考下载压缩包。进行解压。进行复制。后台启动。看一下9100端口前二十行输出内容。在。原创 2023-09-09 23:56:16 · 476 阅读 · 0 评论 -
CentOS 7.6部署prometheus
此文章为9月Day 6学习笔记,内容来源于极客时间。原创 2023-09-08 19:58:12 · 205 阅读 · 0 评论 -
监控系统典型架构
监控系统典型架构如下:从左往右看:采集器是负责采集监控数据的,采集到数据之后传输给服务端,通常是直接写入时序库。对时序库的数据进行分析和可视化。告警引擎产生告警事件之后交给告警发送模块做不同媒介的通知。可视化比较简单,是图上的数据展示,通过各种图表来合理地渲染各类监控数据,便于用户查看比较、日常巡检。原创 2023-09-07 21:31:49 · 999 阅读 · 0 评论 -
监控基本概念
监控:这个词在不同的上下文中有不同的含义,在讲到监控MySQL或者监控Redis时,这里只涉及数据采集和可视化,不涉及告警引擎和事件处理。时序数据最大的特点:每一条数据都带有时间戳,通常是单调顺序,不会乱序,流式发给服务端,通常不会修改。Summary:在客户端计算分位值,然后把计算之后的结果推给服务端存储,展示的时候直接查询即可。划分指标类型最主要的作用:在采集侧埋点的时候,SDK 会根据数据类型做不同的计算逻辑。Gauge:测量值类型,可大可小,可正可负,通常关注的是当前值。原创 2023-09-06 21:09:57 · 863 阅读 · 0 评论 -
运维监控背景信息
刚开始的需求就是出了问题,我们可以精确感知到。后来的需求扩展为:通过监控了解数据趋势,知道系统在未来的某个时刻可能出问题,预知问题。通过监控了解系统的水位情况,为服务扩缩容提供数据支撑。通过监控来给系统把脉,感知到哪里需要优化,比如一些中间件参数的调优。通过监控来洞察业务,提供业务决策的数据依据,及时感知业务异常。原创 2023-09-05 20:24:59 · 292 阅读 · 0 评论 -
运维监控系统实战笔记之开篇词
运维人员负责全公司所有业务的运维工作,而开发人员只负责自己业务线的研发,当发生故障的时候,运维人员想赶紧找出故障原因,然后及时止损,而开发人员则想证明自己的清白。3.监控实战,搞定常见的监控需求:操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等方面监控问题全解决。4.告警实战,设计良好的告警系统应该具备哪些能力:告警规则、屏蔽规则、抑制规则、订阅规则的管理,还有告警事件的管理以及告警事件触发后的自愈逻辑。第一个是预防故障,不让故障发生。原创 2023-09-04 22:03:29 · 258 阅读 · 0 评论