2024年Linux最全基于Prometheus和Grafana的监控平台 - 运维告警(1)，2024年最新Linux运维视频开发面试问题

最新推荐文章于 2024-08-18 23:53:57 发布

m0_54861253

最新推荐文章于 2024-08-18 23:53:57 发布

阅读量733

点赞数 8

分类专栏：程序员文章标签：运维 linux prometheus

本文链接：https://blog.csdn.net/m0_54861253/article/details/138584947

版权

程序员专栏收录该内容

113 篇文章 0 订阅

订阅专栏

为了做好运维面试路上的助攻手，特整理了上百道 【运维技术栈面试题集锦】 ，让你面试不慌心不跳，高薪offer怀里抱！

这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。

本份面试集锦涵盖了

174 道运维工程师面试题
128道k8s面试题
108道shell脚本面试题
200道Linux面试题
51道docker面试题
35道Jenkis面试题
78道MongoDB面试题
17道ansible面试题
60道dubbo面试题
53道kafka面试
18道mysql面试题
40道nginx面试题
77道redis面试题
28道zookeeper

总计 1000+ 道面试题，内容又全含金量又高

174道运维工程师面试题

1、什么是运维?

2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?

3、现在给你三百台服务器，你怎么对他们进行管理?

4、简述raid0 raid1raid5二种工作模式的工作原理及特点

5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?

7、Tomcat和Resin有什么区别，工作中你怎么选择?

8、什么是中间件?什么是jdk?

9、讲述一下Tomcat8005、8009、8080三个端口的含义？

10、什么叫CDN?

11、什么叫网站灰度发布?

12、简述DNS进行域名解析的过程?

13、RabbitMQ是什么东西?

14、讲一下Keepalived的工作原理?

15、讲述一下LVS三种模式的工作过程?

16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

route:

group_by: [‘alertname’]

group_wait: 10s # 最初即第一次等待多久时间发送一组警报的通知

group_interval: 10s # 在发送新警报前的等待时间

repeat_interval: 1h # 发送重复警报的周期对于email配置中，此项不可以设置过低，否则将会由于邮件发送太多频繁，被smtp服务器拒绝

receiver: ‘email’

receivers:

name: ‘email’

email_configs:

to: ‘xxx@xxx.com’

修改完成后可以使用./amtool check-config alertmanager.yml校验文件是否正确。 640?wx_fmt=png

校验正确后使用命令启动alertmanager。nohup ./alertmanager &。（第一次启动可以不使用nohup静默启动，方便后面查看日志）

上面的配置中我们只定义了一个路由，那就意味着所有由Prometheus产生的告警在发送到Alertmanager之后都会通过名为email的receiver接收。实际上，对于不同级别的告警，会有不同的处理方式，因此在route中，我们还可以定义更多的子Route。具体配置规则大家可以去百度进一步了解。

配置Prometheus在Prometheus安装目录下建立rules文件夹，放置所有的告警规则文件。

alerting:

alertmanagers:

static_configs:
targets: [‘192.168.249.131:9093’]

rule_files:

rules/*.yml

在rules文件夹下建立告警规则文件service_down.yml,当服务器下线时发送邮件。

groups:

name: ServiceStatus

rules:

alert: ServiceStatusAlert

expr: up == 0

for: 2m

labels:

team: node

annotations:

summary: “Instance {{ $labels.instance }} has bean down”

description: “{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes.”

value: “{{ $value }}”

配置详解alert：告警规则的名称。expr：基于PromQL表达式告警触发条件，用于计算是否有时间序列满足该条件。for：评估等待时间，可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING，等待期后为FIRING。labels：自定义标签，允许用户指定要附加到告警上的一组附加标签。annotations：用于指定一组附加信息，比如用于描述告警详细信息的文字等，annotations的内容在告警产生时会一同作为参数发送到Alertmanager。

配置完成后重启Prometheus，访问Prometheus查看告警配置。 640?wx_fmt=jpeg

测试

关闭node_exporter,过2分钟就可以收到告警邮件啦，截图如下： 640?wx_fmt=jpeg

Alertmanager的告警内容支持使用模板配置，可以使用好看的模板进行渲染，感兴趣的可以试试！

The More

node exporter的一些指标计算语句

CPU使用率(单位为percent)

(avg by (instance) (irate(node_cpu_seconds_total{mode=“idle”}[5m])) * 100)

内存已使用(单位为bytes)

node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes

内存使用量(单位为bytes/sec)

node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes

内存使用率(单位为percent)

((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100

server1的内存使用率(单位为percent)

((node_memory_MemTotal_bytes{instance=“server1”} - node_memory_MemAvailable_bytes{instance=“server1”})/node_memory_MemTotal_bytes{instance=“server1”}) * 100

server2的磁盘使用率(单位为percent)

((node_filesystem_size_bytes{fstype=~“xfs|ext4”,instance=“server2”} - node_filesystem_free_bytes{fstype=~“xfs|ext4”,instance=“server2”}) / node_filesystem_size_bytes{fstype=~“xfs|ext4”,instance=“server2”}) * 100