Centos 7 搭建Prometheus+Grafana监控系统

最新推荐文章于 2024-05-20 23:24:40 发布

饭桶也得吃饭

最新推荐文章于 2024-05-20 23:24:40 发布

阅读量524

点赞数

分类专栏：系统运维文章标签：数据库可视化 java docker python

本文链接：https://blog.csdn.net/qianghong000/article/details/118223641

版权

系统运维专栏收录该内容

37 篇文章 0 订阅

订阅专栏

本文主要讲解Prometheus 配置过程，Grafana安装请转移此文档。

平台

 
     [ root@opserver:~ ]# uname -a
Linux opserver 3.10.0-1160.25.1.el7.x86_64 #1 SMP Wed Apr 28 21:49:45 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
[ root@opserver:~ ]# cat /etc/centos-release
CentOS Linux release 7.9.2009 (Core) 
    

Prometheus基本概念

官方文档：https://prometheus.io/docs/introduction/overview/

时间序列化数据库，我的理解就是将数据打上标签，以时间维度存储。

Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发，是Google BorgMon监控系统的开源版本。
2016年由Google发起Linux基金会旗下的原生云基金会(Cloud Native Computing Foundation), 将Prometheus纳入其下第二大开源项目。Prometheus目前在开源社区相当活跃。
Prometheus和Heapster(Heapster是K8S的一个子项目，用于获取集群的性能数据。)相比功能更完善、更全面。Prometheus性能也足够支撑上万台规模的集群。

Prometheus的特点:

多维度数据模型。
灵活的查询语言。
不依赖分布式存储，单个服务器节点是自主的。
通过基于HTTP的pull方式采集时序数据。
可以通过中间网关进行时序列数据推送。
通过服务发现或者静态配置来发现目标服务对象。
支持多种多样的图表和界面展示，比如Grafana等。

架构图

Prometheus服务大致过程：

Prometheus 定时去目标上抓取metrics(指标)数据，每个抓取目标需要暴露一个http服务的接口给它定时抓取。Prometheus支持通过配置文件、文本文件、Zookeeper、Consul、DNS SRV Lookup等方式指定抓取目标。Prometheus采用PULL的方式进行监控，即服务器可以直接通过目标PULL数据或者间接地通过中间网关来Push数据。
Prometheus在本地存储抓取的所有数据，并通过一定规则进行清理和整理数据，并把得到的结果存储到新的时间序列中。
Prometheus通过PromQL和其他API可视化地展示收集的数据。Prometheus支持很多方式的图表可视化，例如Grafana、自带的Promdash以及自身提供的模版引擎等等。Prometheus还提供HTTP API的查询方式，自定义所需要的输出。
PushGateway支持Client主动推送metrics到PushGateway，而Prometheus只是定时去Gateway上抓取数据。
Alertmanager是独立于Prometheus的一个组件，可以支持Prometheus的查询语句，提供十分灵活的报警方式。
Prometheus 支持通过SNMP协议获取mertics数据.通过配置job,利用snmp_export读取设备监控信息.

指标(Metric)类型

Counter 计数器,从数据0开始累计计算. 理想状态会永远增长. 累计计算请求次数等
Gauges 瞬时状态的值. 可以任意变化的数值，适用 CPU 使用率温度等
Histogram 对一段时间范围内数据进行采样，并对所有数值求和与统计数量、柱状图. 某个时间对某个度量值，分组，一段时间http相应大小，请求耗时的时间。
Summary 同样产生多个指标，分别带有后缀_bucket(仅histogram)、_sum、_count

Histogram和Summary都可以获取分位数。
通过Histogram获得分位数，要将直方图指标数据收集prometheus中，然后用prometheus的查询函数 histogram_quantile()计算出来。 Summary则是在应用程序中直接计算出了分位数。 Histograms and summaries中阐述了两者的区别，特别是Summary的的分位数不能被聚合。
注意，这个不能聚合不是说功能上不支持，而是说对分位数做聚合操作通常是没有意义的。 LatencyTipOfTheDay: You can’t average percentiles. Period中对“分位数”不能被相加平均的做了很详细的说明：分位数本身是用来切分数据的，它们的平均数没有同样的分位效果。

主要我们监控用到最上面两种,下面两种类型目前我没有接触,上面这段文字与介绍引用自lijiaocn

安装Prometheus

本次搭建利用docker方式.整体搭建完成需要两个容器.暂不配置告警相关,只做监控数据

Centos7上安装docker：https://blog.51cto.com/qiangsh/2167309

# 安装需要的软件包
[root@opserver ~]# sudo yum install -y yum-utils device-mapper-persistent-data lvm2
# 设置yum源
[root@opserver ~]# sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
# 更新 yum 缓存：
[root@opserver ~]# sudo yum makecache fast
# 指定版本安装
[root@opserver ~]# sudo yum install docker-ce-19.03.9-3* docker-ce-cli-19.03.9-3*
# 查看版本信息
[ root@opserver:~ ]# docker version
Client: Docker Engine - Community
 Version:           19.03.9
  ... ...

# 启动docker服务
[ root@opserver:~ ]# sudo systemctl start docker
[ root@opserver:~ ]# sudo systemctl enable docker
Created symlink from /etc/systemd/system/multi-user.target.wants/docker.service to /usr/lib/systemd/system/docker.service.

准备工作

我们来编写Docker Compose脚本，需要映射9090端口，另外建议把配置文件”prometheus.yml”挂载出来

[ root@opserver:/ ]# cd /data/app
[ root@opserver:/ ]# touch docker-compose-monitor.yml

编写 docker-compose-monitor.yml：

version: '2'

networks:
  monitor:
    driver: bridge

services:
  prometheus:
    image: prom/prometheus
    container_name: prometheus
    hostname: prometheus
    restart: always
    volumes:
      - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
      - ./prometheus/node_down.yml:/etc/prometheus/node_down.yml
    ports:
      - "9090:9090"
    networks:
      - monitor

  alertmanager:
    image: prom/alertmanager
    container_name: alertmanager
    hostname: alertmanager
    restart: always
    volumes:
      - ./prometheus/alertmanager.yml:/etc/alertmanager/alertmanager.yml
    ports:
      - "9093:9093"
    networks:
      - monitor

  #grafana:
  #  image: grafana/grafana
  #  container_name: grafana
  #  hostname: grafana
  #  restart: always
  #  ports:
  #    - "3000:3000"
  #  networks:
  #    - monitor

  node-exporter:
    image: quay.io/prometheus/node-exporter
    container_name: node-exporter
    hostname: node-exporter
    restart: always
    ports:
      - "9100:9100"
    networks:
      - monitor

  cadvisor:
    image: google/cadvisor:latest
    container_name: cadvisor
    hostname: cadvisor
    restart: always
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:rw
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro
    ports:
      - "8080:8080"
    networks:
      - monitor

创建一个标准的配置文件Prometheus.yml，内容如下：

建立在搭建位置的根下: touch prometheus.yml

[ root@opserver:/ ]# mkdir /data/app/prometheus
[ root@opserver:/ ]# cd /data/app/
[ root@opserver:/ ]# touch  prometheus/prometheus.yml

在配置文件中加入测试演示配置

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  scrape_timeout: 10s # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets: ['localhost:9093']
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  - "node_down.yml"
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'
    honor_timestamps: true
    scrape_interval: 5s
    scrape_timeout: 3s
    # metrics_path defaults to '/metrics'
    metrics_path: /metrics
    # scheme defaults to 'http'.
    scheme: http

    static_configs:
    - targets: ['localhost:9090']
      labels:
        instance: prometheus

  - job_name: 'cadvisor'
    static_configs:
    - targets: ['10.10.10.10:8080']   # 填写外部服务器ip，或者填写容器内部ip

  - job_name: 'node'
    scrape_interval: 8s
    static_configs:
    - targets: ['10.10.10.10:9100']  # 填写外部服务器ip，或者填写容器内部ip
      labels:
        instance: pms-server

注意配置文件的格式为yaml,语法问题请参考这里

添加邮件告警配置文件

添加配置文件alertmanager.yml，配置收发邮件邮箱

[ root@opserver:/ ]# touch /data/app/prometheus/alertmanager.yml

vim alertmanager.yml

global:
  smtp_smarthost: 'smtp.163.com:25'　　#163服务器
  smtp_from: 'tsiyuetian@163.com'　　　　　　　　#发邮件的邮箱
  smtp_auth_username: 'tsiyuetian@163.com'　　#发邮件的邮箱用户名，也就是你的邮箱
  smtp_auth_password: 'TPP***'　　　　　　　　#发邮件的邮箱密码
  smtp_require_tls: false　　　　　　　　#不进行tls验证

route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 10m
  receiver: monitoring

receivers:
- name: 'monitoring'
  email_configs:
  - to: 'qsh_1992@163.com'　　　　　　　　#收邮件的邮箱

添加报警规则

添加一个node_down.yml为 prometheus targets 监控

[ root@opserver:/ ]# touch  /data/app/prometheus/node_down.yml

vim node_down.yml

groups:
- name: node_down
  rules:
  - alert: InstanceDown
    expr: up == 0
    for: 1m
    labels:
      user: test
    annotations:
      summary: "Instance {{ $labels.instance }} down"
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."

启动服务

# 安装docker-compose
[ root@opserver:~ ]# yum install -y epel-release
[ root@opserver:~ ]# yum install -y docker-compose

# 启动容器：
docker-compose -f /data/app/docker-compose-monitor.yml up -d

# 删除容器：
docker-compose -f /data/app/docker-compose-monitor.yml down

# 重启容器：
docker restart <id>

饭桶也得吃饭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Centos 7 搭建Prometheus+Grafana监控系统

本文主要讲解Prometheus 配置过程，Grafana安装请转移此文档。平台[ root@opserver:~ ]# uname -aLinux opserver 3.10.0-1160.25.1.el7.x86_64 #1 SMP Wed Apr 28 21:49:45 UTC 2021 x86_64 x86...
复制链接

扫一扫

专栏目录