基础设施&阿里云-监控指标和水位

lefooter

已于 2022-07-14 10:00:03 修改

阅读量914

点赞数

分类专栏：基础架构文章标签：阿里云服务器网络运维监控监控参数

于 2022-07-14 09:58:52 首次发布

本文链接：https://blog.csdn.net/baidu_19620507/article/details/125777731

版权

基础架构专栏收录该内容

5 篇文章 0 订阅

订阅专栏

阿里云基础设施监控指标和水位

基础设施

设施

监控项

说明

Warning

High

Disaster

阿里云

zabbix

域名

证书过期时间

高防

被DDOS攻击清洗，会有邮件和短信提醒

ping 可达性性探测

线上(公司)zabbix ping

不可达

ping 丢包率探测

线上(公司)zabbix ping

丢包

清洗

消息通知

完成

黑洞

云服务器遭受大量攻击，且超过免费防御的流量值时，进入黑洞，消息通知

完成

QPS

正常业务QPS： 3000，

超出后不会立即限速，限速通知

完成

业务带宽

正常业务带宽：600M，

超出后不会立即限速，限速通知

完成

WAF

CC攻击时，QPS突增

超过10%

CC攻击时，4XX请求占比

超过3%

超过5%

CC攻击时，5XX请求占比

超过0.3%

超过0.5%

DDOS事件导致黑洞

消息通知

完成

黑洞结束

消息通知

完成

CC攻击时，QPS值和QPS突增占比

QPS超过2000和QPS突增占比超过10%

完成

CC攻击时，4XX QPS值和4XX请求占比

4XX QPS超过2000和4XX请求占比超过3%

完成

CC攻击时，5XX QPS值和5XX请求占比

5XX QPS超过2000和5XX请求占比0%

占比仅支持整数，已完成

集中大量的Web扫描事件

超过 1000次/5分钟

完成

QPS

正常业务QPS： 25000,

超出后不会立即限速，限速通知

完成

业务带宽

正常业务带宽：600M ,

超出后不会立即限速，限速通知

完成

SLB

InstanceDropPacketRX

实例丢弃流入数据包数

有异常就告警

完成

InstanceDropPacketTX

实例丢弃流出数据包数

有异常就告警

完成

InstanceDropConnection

实例丢弃连接数

有异常就告警

完成

InstanceMaxConnection

实例级别最大连接数

>50%

>75%

>90%

InstanceMaxConnectionUtilization

最大连接数使用率

>75%

>90%

75/90，已完成

InstanceNewConnection

实例级别新建连接数

>50%

>75%

>90%

InstanceNewConnectionUtilization

每秒新建连接数使用率

>75%

>90%

75/90，已完成

InstanceQpsUtilization

QPS使用率

>50%

>75%

>90%

75/90，已完成

InstanceTrafficRX

实例流入带宽

>50%

>75%

>90%

75/90，已完成

InstanceTrafficTX

实例流出带宽

>50%

>75%

>90%

75/90，已完成

UnhealthyServerCount

端口后端异常ECS实例数

完成

HeathyServerCount

端口后端健康ECS实例数

完成

PORT ActiveConnection

端口级别活跃连接数

PORT NewConnection

端口级别新建连接数

PORT Qps

端口级别QPS

PORT Rt

端口级别响应时间

PORT StatusCode4xx

端口级别4XX数量

PORT StatusCode5xx

端口级别5XX数量

PORT UpstreamCode4xx

端口级别后端4XX数量

PORT UpstreamCode5xx

端口级别后端5XX数量

PORT UpstreamRt

端口级别后端响应时间

PORT TrafficRX

端口流入带宽

>50%

>75%

>90%

70/90，已完成

PORT TrafficTX

端口流出带宽

>50%

>75%

>90%

70/90，已完成

NAT

SnatConnectionDrop_ConcurrentConnectionLimit

历史累积最大限制丢弃连接数

异常有值就告警

完成

SnatConnectionDrop_ConnectionRateLimit

历史累积新建限制丢弃连接数

异常有值就告警

完成

SnatConnection

连接数

net_rx.rate

进带宽流量

60mbps

70bpms

90mbps

70/90，已完成

net_tx.rate

出带宽流量

60mbps

70bpms

90mbps

70/90，已完成

net_tx.ratePercent

出带宽流量百分比

>70%

>85%

>95%

85/95，已完成

EIP

net_rx

进带宽

>130M

>160M

>180M

160/180，已完成

net_tx

出带宽

>130M

>160M

>180M

160/180，已完成

Connection

连接数

out_ratelimit_drop_speed

限速丢包速率

异常有值就告警

完成

EIP ping 公司

丢包率

丢包、不可达

OSS

SuccessCount

成功请求总数(返回状态码为2xx的请求总数) Bucket层级

SuccessRate

成功请求占比 Bucket层级

AuthorizationErrorCount

客户端授权错误请求总数 Bucket层级

AuthorizationErrorRate

客户端授权错误请求占比 Bucket层级

NetworkErrorCount

网络错误请求总数(HTTP状态码为499的请求总数) Bucket层级

NetworkErrorRate

网络错误请求占比 Bucket层级

ServerErrorRate

服务端错误请求占比 Bucket层级

NetworkErrorCount

网络错误请求总数 Bucket层级

ResourceNotFoundErrorCount

客户端资源不存在错误请求总数 Bucket层级

ResourceNotFoundErrorRate

客户端资源不存在错误请求占比 Bucket层级

RequestValidRate

有效请求率 Bucket层级

TotalRequestCount

总请求数 Bucket层级

ClientTimeoutErrorCount

客户端超时错误请求总数 Bucket层级

ClientOtherErrorRate

客户端超时错误请求占比 Bucket层级

GetObjectE2eLatency GetObject

请求平均E2E延时 Bucket层级

HeadObjectE2eLatency HeadObject

请求平均E2E延时 Bucket层级

PutObjectE2eLatency PutObject

请求平均E2E延时 Bucket层级

PostObjectE2eLatency PostObject

请求平均E2E延时 Bucket层级

AppendObjectE2eLatency AppendObject

请求平均E2E延时 Bucket层级

UploadPartE2eLatency UploadPart

请求平均E2E延时 Bucket层级

CDN （细化域名级别定制宏变量告警阀值监控制）

DescribeDomainSrcHttpCodeData

获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。4XX率

DescribeDomainSrcHttpCodeData

获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。5XX率

DescribeDomainHttpCodeData

获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX

DescribeDomainHttpCodeData

获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX

DescribeDomainHttpCodeData

获取加速域名最小5分钟粒度的HTTP返回码占比数据。

NAS

域名

解析

公司zabbix节点操作

无解析

ping 外网

公司zabbix节点操作

不可达

内网域名

内网 ping

阿里云zabbix节点操作

不可达

ZABBIX

ECS基础监控

大类

监控项

说明

触发器

监控间隔

Warning

High

Disaster

阿里云

zabbix

Memory

Available memory

可用内存（包含缓存）

{Template OS Linux:vm.memory.size[available].last()}<{$AVAIL_MEM}

1000M小于多少内存

500M小于多少内存

200M小于多少内存

Memory

Available memory in %

可用内存百分比

available memory less than {$AVAIL_MEM_P}%

小于10%多少内存

小于5%多少内存

小于3%多少内存

Memory

Buffers memory

buffers缓存区大小

Memory

Cached memory

Cache缓存区大小

General

check ecs no use

是否使用率较低

30m

Security

Checksum of /etc/ssh/sshd_config

检查sshd_config是否有被更改

{VECS02335:vfs.file.cksum[/etc/ssh/sshd_config].diff()}=1

10m

有更改则告警

Security

Checksum of /etc/sysconfig/iptables

检查iptables是否有被更改

{VECS02335:vfs.file.cksum[/etc/sysconfig/iptables].diff()}=1

10m

有更改则告警

Security

Checksum of /var/log/userlog.info

检查userlog.info是否有被更改

没变更就报警

CPU

CPU system time

系统态使用的cpu时间比

CPU

CPU iowait time

cpu等待磁盘写入完成时间

{VECS02335:system.cpu.util[,iowait].count(#3,{$IOWAIT_THRESHOLD},"gt")}=3

CPU iowait 连续三分钟大于10%

CPU iowait 连续三分钟大于15%

CPU iowait 连续三分钟大于20%

CPU

CPU user time

用户态使用的cpu时间比

CPU

CPU idle time

空闲的cpu时间比

CPU

CPU used

CPU使用比

{VECS02335:cpu_used.min({$CPUUSED_COUNT_TIME})}>{$CPUUSED}

cpu used 最近分钟高于50% 请注意

cpu used 最近分钟高于70% 请注意

cpu used 最近分钟高于90% 请注意

CPU

cpu_load_min\ cpu_num

CPU负载

{VECS02335:Processor_Time.count(#5,{$CPULOAD_NUM_P},gt)}=5

cpu负载大于80%

cpu负载大于90%

cpu负载大于100%

Filesystems

Disk I/O error

磁盘报错

{Template OS Linux:log[/var/log/messages,"I/O error",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"I/O error",,,,].nodata(60)}=0

/var/log/messages磁盘报错信息

Filesystems

Disk panic

{Template OS Linux:log[/var/log/messages,"Aborting",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"Aborting",,,,].nodata(60)}=0

20s

Filesystems

Disk read ops

展示不添加

Filesystems

Disk write ops

展示不添加

General

Host boot time

主机启动时间

12h

General, OS

Host name

主机名

12h

General

Host name and operating system

主机名

{Template OS Linux:system.uname.diff(0)}>0

主机名更改

General

ICMP ping

Triggers2

ping失败

ICMP

Template ICMP: ICMP ping loss

ping丢包

Triggers

20s

丢包30%

丢包60%

丢包90%

ICMP

Template ICMP: ICMP response time

ping响应时间

Triggers

待添加

Network interfaces

Incoming network dropped packets on eth0

表示数据包已经进入了 Ring Buffer，但是由于内存不够等系统原因，导致在拷贝到内存的过程中被丢弃。

丢包告警

Network interfaces

outgoing network dropped packets on eth0

表示数据包已经进入了 Ring Buffer，但是由于内存不够等系统原因，导致在拷贝到内存的过程中被丢弃。

Triggers

丢包告警

Network interfaces

Incoming network errors on eth0

表示总的收包的错误数量，这包括 too-long-frames 错误，Ring Buffer 溢出错误，crc 校验错误，帧同步错误，fifo overruns 以及 missed pkg 等等。

{Template OS Linux:net.if.in[eth0,errors].last()}>0

丢包告警

Outgoing network errors on eth0

表示总的收包的错误数量，这包括 too-long-frames 错误，Ring Buffer 溢出错误，crc 校验错误，帧同步错误，fifo overruns 以及 missed pkg 等等。

Triggers

丢包告警

Network interfaces

Incoming network overruns fifo on eth0

表示了 fifo 的 overruns，这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的，而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。

{Template OS Linux:net.if.in[eth0,overruns].last()}>0

丢包告警

Network interfaces

Incoming network traffic on eth0

网卡带宽使用

{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65，{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100

使用率大于50%

使用率大于70%

使用率大于90%

Network interfaces

Outgoing network traffic on eth0

网卡带宽使用

{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65，{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100

使用率大于50%

使用率大于70%

使用率大于90%

Filesystems

IO_data_trapper

Maximum number of opened files

系统支持的最大打开文件数

Maximum number of processes

系统支持的最大进程数

Network interfaces

Network ESTABLISHED

ESTABLISHED状态连接数

Network interfaces

network invalid SYN cookies received

三次握手ack包，syncookies校验没通过

Network interfaces

network packets pruned from receive queue because of socket buffer overrun

超过tcp net.ipv4.tcp_rmem缓存区大小，丢弃的包

Network interfaces

network packets rejects in established connections because of timestamp

在建立连接过程中，因时间戳问题而丢弃包

Network interfaces

network resets received for embryonic SYN_RECV sockets

状态下，收到非重传的syn包，则返回reset(半连接重置)

Network interfaces

network SYNs to LISTEN sockets ignored

收到三次握手ack包，因各种原因（包括accept队列满）创建socket失败

Network interfaces

Network SYN_RECV

SYN_RECV状态连接数

Network interfaces

network times the listen queue of a socket overflowed

accept队列满时收到的三次握手ack包

Network interfaces

Network TIME_WAIT

TIME_WAIT 状态连接数

ssh_Login

No jump SSH Login

不通过跳板机告警

General

ntpq status

ntp状态

{Template OS Linux:ntpq.status.count(#6,"LOCAL")}=6

10m

告警

Service

NTP service

Triggers3

告警

CPU

Number of CPU

CPU核数

Processes

Number of processes

进程数

Triggers

1000

2000

3000

Processes

Number of running processes

正在运行的进程数

Triggers

CPU

Processor load (avg1)

进程一分钟负载

Triggers4

cpu负载大于50%(根据核数)

cpu负载大于70%(根据核数)

cpu负载大于90%(根据核数)

ssh_Login

ssh port

ssh端口连通行

{Template OS Linux:ssh_port.last()}<>22 and ({Template OS Linux:ssh_port.last()}<>10022)

ssh port doesn't 22 or 10022

General

System localtime

zabbix agent no data

{Template OS Linux:system.localtime.nodata(30m)}=1 and {Template OS Linux:icmpping.last(0)}=1

没数据告警

General

System uptime

系统启动

{Template OS Linux:system.uptime.change(0)}<0

10m

系统重启告警

Memory

Total memory

内从总数

12h

Memory

Used memory

使用的内存数量

Filesystems

diskstat_IOerror.[{#DISK_NAME}]

磁盘错误

{Template OS Linux:diskstat_IOerror[{#DISK_NAME}].last()}>0

有异常就告警

Filesystems

IO_await.[{#DISK_NAME}]

IO 等待

Filesystems

IO_svctm.[{#DISK_NAME}]

IO平均服务时间

Filesystems

IO_tps.[{#DISK_NAME}]

IO_tps

Filesystems

IO_util.[{#DISK_NAME}]

IO使用率

Filesystems

Free disk space on {#FSNAME}

剩余磁盘

Filesystems

Free disk space on {#FSNAME} (percentage)

剩余磁盘百分比

剩余30%

剩余10%

剩余5%

Filesystems

Free inodes on {#FSNAME} (percentage)

剩余inodes百分比

剩余30%

剩余10%

剩余5%

Filesystems

Total disk space on {#FSNAME}

磁盘总量

12h

Filesystems

Used disk space on {#FSNAME}

已经使用的磁盘空间大小

APP

{#APP_NAME} is down

APP进程down

down告警

JVM

70% http-{#TOMCAT_PORT} worker threads busy on {HOST.NAME}

繁忙线程数

繁忙线程数大于最大线程数的70%告警

JVM

{#APP_NAME} tomcat port {#TOMCAT_PORT} GlobalRequestProcessor errorCount

每秒请求错误数

大于5告警

JVM

{#APP_NAME} 70% mem Heap Memory used on {HOST.NAME}

堆内存已使用

堆内存已使用大于%告警

JVM

{#APP_NAME} 70% mem Non-Heap Memory used on {HOST.NAME}

非堆内存使用

非堆内存已使用大于%告警

JVM

{#APP_NAME} 70% os Opened File Descriptor Count used on {HOST.NAME}

打开文件数

打开文件数大于%告警

JVM

{#APP_NAME} 90% mp CMS Old Gen used on {HOST.NAME}

年老代已用大于%告警

JVM

{#APP_NAME} FULL GC Interval time

APP 在10分钟内GC次数超过1次，触发告警。（注GC为CMS GC

告警

JVM

{#APP_NAME} mem Heap Memory fully committed on {HOST.NAME}

堆内存

堆内存等于最大非堆内存告警

JVM

{#APP_NAME} mem Non-Heap Memory fully committed on {HOST.NAME}

非堆内存

非堆内存等于最大非堆内存告警

JVM

{#APP_NAME} mp CMS Old Gen fully committed on {HOST.NAME}

永久代等于永久代最大数

告警

nginx

nginx ping

nginx was down!

kafka 监控项

服务名

监控项

描述

告警阈值

kafka

of under replicated partitions (|ISR| < |all replicas|)

所有副本未复制分区的数量

Bytes In Per Sec FifteenMinuteRate

每15分钟生产的数据

最近一次的值比上一次的少30%，或者当前最近一次的值小于1

Bytes In Per Sec FiveMinuteRate

每5分钟的数据

无

Bytes In Per Sec MeanRate

每分钟平均生产的数据

无

Bytes In Per Sec OneMinuteRate

每1分钟生产的数据

无

Bytes Out Per Sec FifteenMinuteRate

每15分钟消费的数据

最近一次的值比上一次的少30%，或者当前最近一次的值小于1

Bytes Out Per Sec FiveMinuteRate

每5分钟消费的数据

无

Bytes Out Per Sec MeanRate

每分钟平均消费数据

无

Bytes Out Per Sec OneMinuteRate

每5分钟消费的数据

无

Daemon threads

kafka进程

rabbitmq 监控项

指标

具体含义

监控告警值

目前是否有告警

备注

rabbitmq.node.fd_used

已使用的文件描述符数量

没设定

无

rabbitmq.node.mem_used

内存使用字节数

没设定

无

rabbitmq.node.run_queue

等待运行的 Erlang 进程数量

没设定

无

rabbitmq.node.sockets_used

以 socket 方式使用掉的文件描述符数量

没设定

无

rabbitmq deliver rate

集群中总的delive数据

>25000

是

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

rabbitmq exchanges num

集群中总的exchange数量

>25

是（未开启）

rabbitmq node disk free limit

硬盘超过水位线

内存2位(正常32G)

是

Disaster

rabbitmq node memory limit

内存超过水位线

40%

是

Disaster

rabbitmq node partitions

网络分区

是

Disaster

rabbitmq queues num

一个exchange绑定队列的总数

已关闭

rabbitmq node running status

node节点状态

是

Disaster

rabbitmq node memory used

CPU使用率

>40%

是

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

CPU load is overloaded (high)

CPU负载

>cpu总量二分之一

是

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

生产者连接失败

在调试

通过connetctions总的连接数做对比，如果比上次发了连接，则通过cmdb查找对应的IP 和App发告警给对应负责人

消费者绑定失败

在调试

通过connetctions总的连接数做对比，如果比上次发了连接，则通过cmdb查找对应的IP 和App发告警给对应负责人

Exchange消息进入的速率

>3000

是

每秒不超过3000

Exchange消息出去的速率

>90000

是

每秒不超过9000

Queues消费者提交的速率

>30000

在调试

每秒不超过3000

Queues消费者接收的速率

>30000

在调试

每秒不超过3000

exchange新增变更

>N+1

是

在原有exchange的基础上新增都发Warning告警通知

每秒发出的数据包

>500kb

是

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

每秒收到的数据包

>500kb

是

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

flow

Disaster

是

一次触发告警

网络流量

>200M

在调试

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

Memory增量

Memory环比增加>20%

在调试

根据最高值计算环比增加>20%触发告警

CPU增量

CPU环比增加>10%

在调试

根据最高值计算环比增加>10%触发告警

硬盘ops

>300

在调试

第一次取值为： Information，持续3分钟为：Warning

持续5分钟为High

elasticsearch 监控项

指标

具体的含义

zabbix告警值

巡检预警值

备注

monitor_process[elasticsearch]

进程是否存在

<1 ,且原先值>0

elasticsearch[cluster_indices_indexing_index_total]

集群总的写入tps

无

明显高于/低于同期数值

zabbix监控中已转换为速率

elasticsearch[{#NODE},heap_committed_in_bytes]

已提交的JVM堆量

无

elasticsearch[{#NODE},heap_used_percent]

当前JVM堆占比

无

>75%

elasticsearch[{#NODE},http_current_open]

当前打开的HTTP连接数

无

elasticsearch[{#NODE},http_total_opened]

一共打开的HTTP连接数

无

elasticsearch[{#NODE},indices_indexing_flush_total]

flush 次数

无

elasticsearch[{#NODE},indices_indexing_flush_total_time_in_millis]

flush 总耗时

无

elasticsearch[{#NODE},indices_indexing_index_current]

当前写入index的数据量

无

elasticsearch[{#NODE},indices_indexing_index_time_in_millis]

当前写入index的耗时

无

elasticsearch[{#NODE},indices_indexing_index_total]

当前写入index的次数

无

elasticsearch[{#NODE},indices_indexing_refresh_total]

写入index后执行refresh的总次数

无

elasticsearch[{#NODE},indices_indexing_refresh_total_time_in_millis]

写入index后执行refresh的总耗时

无

elasticsearch[{#NODE},indices_search_fetch_current]

当前写入search fetch段的次数

无

elasticsearch[{#NODE},indices_search_fetch_time_in_millis]

当前写入search fetch段的耗时

无

elasticsearch[{#NODE},indices_search_fetch_total]

当前写入search fetch段的总次数

无

elasticsearch[{#NODE},indices_search_query_current]

当前写入search query段的次数

无

elasticsearch[{#NODE},indices_search_query_time_in_millis]

当前写入search query段的耗时

elasticsearch[{#NODE},indices_search_query_total]

当前写入search query段的总次数

无

明显高于/低于同期数值

zabbix监控中已转换为速率

elasticsearch[{#NODE},indices_search_query_latency]

平均查询延迟，前两项值相除计算得到

usertag集群为 >10

elasticsearch[{#NODE},old_collection_count]

老年代垃圾回收总数

无

业务集群: >0

日志集群: >100

elasticsearch[{#NODE},old_collection_time_in_millis]

老年代垃圾回收总耗时

无

elasticsearch[{#NODE},thread_pool_bulk_queue]

当前队列中的bulk提交

无

业务集群: >0

日志集群: >100

elasticsearch[{#NODE},thread_pool_bulk_rejected]

当前队列中的bulk被拒绝的次数

elasticsearch[{#NODE},thread_pool_get_completed]

当前队列中的get方式被拒绝的次数

无

elasticsearch[{#NODE},thread_pool_index_queue]

当前队列中的index方式的队列

无

elasticsearch[{#NODE},thread_pool_index_rejected]

当前队列中的index方式被拒绝的次数

elasticsearch[{#NODE},thread_pool_search_completed]

当前搜索成功的处理次数，相当于qps

>700(warnings)

elasticsearch[{#NODE},thread_pool_search_queue]

当前搜索队列的排队情况

无

elasticsearch[{#NODE},thread_pool_search_rejected]

搜索被拒绝的次数

elasticsearch[{#NODE},young_collection_count]

年轻代垃圾回收总耗时

无

elasticsearch[{#NODE},young_collection_time_in_millis]

年轻代垃圾回收总耗时

无

zookeeper监控项

服务名

监控项

描述

告警阈值

zookeeper

zookeeper_status[max_file_descriptor]

zk打开最大的文件描述符

85%

open_file_descriptor

ZK打开的文件描述符

85%

zk_avg_latency

zk平均延迟

zk_outstanding_requests

ZK未完成的请求

zk_server_state

zk 服务器状态

无

zookeeper_status[zk_followers]

zk从节点状态

无

zk_pending_syncs

zk 同步错误状态

zk_synced_followers

zk从节点同步数

无

zk_followers

zk从节点监控

无

名称

默认报警阈值

单位

默认报警间隔（分钟）

默认报警频率（报警间隔内发生n次则报警）

默认报警形式

备注

机器流量监控

10240

KB/s

Waring

实例运行状态监控

true

Waring

true表示实例正常运行

实例连接数监控

3000

个

Waring

平均延时监控

毫秒

Waring

所有实例平均延时中的最大值作为集群平均延时

实例打开文件描述符数量监控

5000

个

Waring

机器平均负载监控

High

最大延时监控

500

毫秒

Waring

所有实例最大延时中的最大值作为集群最大延时

机器CPU监控

High

机器内存使用率监控

High

机器磁盘使用率监控

High

监控dataDir所在磁盘使用率

lefooter

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
基础设施&阿里云-监控指标和水位

阿里云基础设施监控Zabbix监控ECS基础监控kafka 监控项rabbitmq 监控项elasticsearch 监控项zookeeper监控项
复制链接

扫一扫

专栏目录

基础设施&阿里云-监控指标和水位

基础设施

ZABBIX

ECS基础监控

kafka 监控项

rabbitmq 监控项

elasticsearch 监控项

zookeeper监控项

“相关推荐”对你有帮助么？