Prometheus
prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是Google BorgMon监控系统的开源版本。
直白一点就是一个监控系统。它通过http采集到exporter的数据,然后保存到内部的时序性数据库中。
服务过程
• Prometheus Daemon负责定时去目标上抓取metrics(指标)数据,每个抓取目标需要暴露一个http服务的接口给它定时抓取。Prometheus支持通过配置文件、文本文件、Zookeeper、Consul、DNS SRV Lookup等方式指定抓取目标。Prometheus采用PULL的方式进行监控,即服务器可以直接通过目标PULL数据或者间接地通过中间网关来Push数据。
• Prometheus在本地存储抓取的所有数据,并通过一定规则进行清理和整理数据,并把得到的结果存储到新的时间序列中。
• Prometheus通过PromQL和其他API可视化地展示收集的数据。Prometheus支持很多方式的图表可视化,例如Grafana、自带的Promdash以及自身提供的模版引擎等等。Prometheus还提供HTTP API的查询方式,自定义所需要的输出。
• PushGateway支持Client主动推送metrics到PushGateway,而Prometheus只是定时去Gateway上抓取数据。
• Alertmanager是独立于Prometheus的一个组件,可以支持Prometheus的查询语句,提供十分灵活的报警方式。
Prometheus体系结构
参考官网的图片
具体分为三个大的部分。
- Prometheus Server(综合数据,显示的软件)+exporter(数据采集软件)
- AlertManager (报警,信息通知管理员的软件)
- Grafana (数据可视化的软件)
exporter插件
在这套生态体系中包含很多这样的插件,就是说有很多的采集器。
这些采集器就去监视不同的数据,并把数据汇总到prometheus中。
常用的就是比如监控linux主机,监控elasticsearch,监控kafka,监控prometheus等
prometheus运行模式
分为两种。均是通过http进行数据传输
- push(就是在客户端安装exporter,客户端主动推送数据到pushgateway,然后prometheus server再从pushgateway拉去数据)
- pull(prometheus server主动拉去exproter监控的数据)
报警规则
报警分为三种状态:
Inactive:正常
Pending:即将报警
Firing:触发报警,比如会发送邮件
比如下面cpu大于70,并且时间达到1分钟,将会触发报警
groups:
- name: node_alerts
rules:
- alert: HighNodeCPU
#expr: go_threads >14
expr: ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Buffers_bytes - node_memory_Cached_bytes) / (node_memory_MemTotal_bytes )) * 100 > 70
for: 1m
labels:
serverity: warning
annotations:
summary: High Node CPU for 1 m
console: You might want to check the Node Dashboard
实际应用
通过这样的一套体系,就可以让我们监控linux主机,elasticsearch等的运行情况。比如linux中cpu运行过高,就可以通过alertmanager发送邮件给管理员,也可以在grafana可视化cpu的运行情况。
总结
一个总结的思维导图,帮助学习。