基础设施&阿里云-监控指标和水位

阿里云基础设施监控指标和水位

基础设施

设施

监控项

说明

Warning

High

Disaster

阿里云

zabbix

域名

证书过期时间

高防

被DDOS攻击清洗,会有邮件和短信提醒

ping 可达性性探测

线上(公司)zabbix ping

不可达

ping 丢包率探测

线上(公司)zabbix ping

丢包

清洗

消息通知

完成

黑洞

云服务器遭受大量攻击,且超过免费防御的流量值时,进入黑洞,消息通知

完成

QPS

正常业务QPS: 3000,

超出后不会立即限速,限速通知

完成

业务带宽

正常业务带宽:600M,

超出后不会立即限速,限速通知

完成

WAF

CC攻击时,QPS突增

CC攻击时,QPS突增

超过10%

CC攻击时,4XX请求占比

CC攻击时,4XX请求占比

超过3%

超过5%

CC攻击时,5XX请求占比

CC攻击时,5XX请求占比

超过0.3%

超过0.5%

DDOS事件导致黑洞

消息通知

完成

黑洞结束

消息通知

完成

CC攻击时,QPS值和QPS突增占比

QPS超过2000和QPS突增占比超过10%

完成

CC攻击时,4XX QPS值和4XX请求占比

4XX QPS超过2000和4XX请求占比超过3%

完成

CC攻击时,5XX QPS值和5XX请求占比

5XX QPS超过2000和5XX请求占比0%

占比仅支持整数,已完成

集中大量的Web扫描事件 

集中大量的Web扫描事件 

超过 1000次/5分钟

完成

QPS

正常业务QPS: 25000,

超出后不会立即限速,限速通知

完成

业务带宽

正常业务带宽:600M ,

超出后不会立即限速,限速通知

完成

SLB

InstanceDropPacketRX 

 实例丢弃流入数据包数

有异常就告警

完成

InstanceDropPacketTX 

实例丢弃流出数据包数

有异常就告警

完成

InstanceDropConnection

实例丢弃连接数

有异常就告警

完成

InstanceMaxConnection 

实例级别最大连接数

>50%

>75%

>90%

InstanceMaxConnectionUtilization

最大连接数使用率

>75%

>90%

75/90,已完成

InstanceNewConnection 

实例级别新建连接数

>50%

>75%

>90%

InstanceNewConnectionUtilization

每秒新建连接数使用率

>75%

>90%

75/90,已完成

InstanceQpsUtilization

QPS使用率

>50%

>75%

>90%

75/90,已完成

InstanceTrafficRX

实例流入带宽

>50%

>75%

>90%

75/90,已完成

InstanceTrafficTX

实例流出带宽

>50%

>75%

>90%

75/90,已完成

UnhealthyServerCount

端口后端异常ECS实例数

1

完成

HeathyServerCount 

端口后端健康ECS实例数

0

完成

PORT ActiveConnection 

端口级别活跃连接数

PORT  NewConnection 

端口级别新建连接数

PORT  Qps 

端口级别QPS

PORT  Rt  

端口级别响应时间

PORT  StatusCode4xx 

端口级别4XX数量

PORT  StatusCode5xx 

端口级别5XX数量

PORT  UpstreamCode4xx 

端口级别后端4XX数量

PORT  UpstreamCode5xx 

端口级别后端5XX数量

PORT  UpstreamRt 

端口级别后端响应时间

PORT  TrafficRX 

端口流入带宽

>50%

>75%

>90%

70/90,已完成

PORT  TrafficTX

端口流出带宽

>50%

>75%

>90%

70/90,已完成

NAT

SnatConnectionDrop_ConcurrentConnectionLimit 

历史累积最大限制丢弃连接数

异常有值就告警

完成

SnatConnectionDrop_ConnectionRateLimit 

历史累积新建限制丢弃连接数

异常有值就告警

完成

SnatConnection

连接数

net_rx.rate

进带宽流量

60mbps

70bpms

90mbps

70/90,已完成

net_tx.rate

出带宽流量

60mbps

70bpms

90mbps

70/90,已完成

net_tx.ratePercent

出带宽流量百分比

>70%

>85%

>95%

85/95,已完成

EIP

net_rx

进带宽

>130M

>160M

>180M

160/180,已完成

net_tx

出带宽

>130M

>160M

>180M

160/180,已完成

Connection

连接数

out_ratelimit_drop_speed

限速丢包速率

异常有值就告警

完成

EIP ping 公司

丢包率

丢包、不可达

OSS

SuccessCount

成功请求总数(返回状态码为2xx的请求总数) Bucket层级

SuccessRate 

成功请求占比 Bucket层级 

AuthorizationErrorCount 

客户端授权错误请求总数 Bucket层级

AuthorizationErrorRate 

客户端授权错误请求占比 Bucket层级

NetworkErrorCount  

网络错误请求总数(HTTP状态码为499的请求总数) Bucket层级

NetworkErrorRate  

网络错误请求占比  Bucket层级

ServerErrorRate 

服务端错误请求占比 Bucket层级

NetworkErrorCount 

网络错误请求总数 Bucket层级

ResourceNotFoundErrorCount 

客户端资源不存在错误请求总数 Bucket层级

ResourceNotFoundErrorRate 

客户端资源不存在错误请求占比 Bucket层级

RequestValidRate 

有效请求率 Bucket层级

TotalRequestCount 

总请求数 Bucket层级

ClientTimeoutErrorCount 

客户端超时错误请求总数 Bucket层级

ClientOtherErrorRate 

客户端超时错误请求占比 Bucket层级

GetObjectE2eLatency GetObject

请求平均E2E延时 Bucket层级

HeadObjectE2eLatency HeadObject

请求平均E2E延时 Bucket层级

PutObjectE2eLatency PutObject

请求平均E2E延时 Bucket层级

PostObjectE2eLatency PostObject

请求平均E2E延时 Bucket层级

AppendObjectE2eLatency AppendObject

请求平均E2E延时 Bucket层级

UploadPartE2eLatency UploadPart

请求平均E2E延时 Bucket层级

CDN (细化域名级别定制宏变量告警阀值监控制)

DescribeDomainSrcHttpCodeData

 获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。4XX率 

DescribeDomainSrcHttpCodeData 

获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。5XX率 

DescribeDomainHttpCodeData 

获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX 

DescribeDomainHttpCodeData 

获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX 

DescribeDomainHttpCodeData 

获取加速域名最小5分钟粒度的HTTP返回码占比数据。

NAS

域名

解析

公司zabbix节点操作

无解析

ping 外网

公司zabbix节点操作

不可达

内网域名

内网 ping 

阿里云zabbix节点操作

不可达

ZABBIX

ECS基础监控

大类

监控项

说明

触发器

监控间隔

Warning

High

Disaster

阿里云

zabbix

Memory

Available memory

可用内存(包含缓存)

{Template OS Linux:vm.memory.size[available].last()}<{$AVAIL_MEM}

1m

1000M小于多少内存

500M小于多少内存

200M小于多少内存

Memory

Available memory in %

可用内存百分比

 available memory less than {$AVAIL_MEM_P}%

1m

小于10%多少内存

小于5%多少内存

小于3%多少内存

Memory

Buffers memory

buffers缓存区大小

1m

Memory

Cached memory

Cache缓存区大小

1m

General

check ecs no use

是否使用率较低

30m

Security

Checksum of /etc/ssh/sshd_config

检查sshd_config是否有被更改

{VECS02335:vfs.file.cksum[/etc/ssh/sshd_config].diff()}=1

10m

有更改则告警

Security

Checksum of /etc/sysconfig/iptables

检查iptables是否有被更改

{VECS02335:vfs.file.cksum[/etc/sysconfig/iptables].diff()}=1

10m

有更改则告警

Security

Checksum of /var/log/userlog.info

检查userlog.info是否有被更改

1d

没变更就报警

CPU

CPU system time

系统态使用的cpu时间比

1m

CPU

CPU iowait time

cpu等待磁盘写入完成时间

{VECS02335:system.cpu.util[,iowait].count(#3,{$IOWAIT_THRESHOLD},"gt")}=3

1m

CPU iowait 连续三分钟大于10%

CPU iowait 连续三分钟大于15%

CPU iowait 连续三分钟大于20%

CPU

CPU user time

用户态使用的cpu时间比

1m

CPU

CPU idle time

空闲的cpu时间比

1m

CPU

CPU used

CPU使用比

{VECS02335:cpu_used.min({$CPUUSED_COUNT_TIME})}>{$CPUUSED}

1m

cpu used 最近 分钟高于50% 请注意

cpu used 最近 分钟高于70% 请注意

cpu used 最近 分钟高于90% 请注意

CPU

cpu_load_min\ cpu_num

CPU负载

{VECS02335:Processor_Time.count(#5,{$CPULOAD_NUM_P},gt)}=5

1m

cpu负载大于80%

cpu负载大于90%

cpu负载大于100%

Filesystems

Disk  I/O error

磁盘报错

{Template OS Linux:log[/var/log/messages,"I/O error",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"I/O error",,,,].nodata(60)}=0

5s

/var/log/messages磁盘报错信息

Filesystems

Disk  panic

{Template OS Linux:log[/var/log/messages,"Aborting",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"Aborting",,,,].nodata(60)}=0

20s

Filesystems

Disk read ops

1m

展示不添加

Filesystems

Disk write ops

1m

展示不添加

General

Host boot time

主机启动时间

12h

General, OS

Host name

主机名

12h

General

Host name and operating system

主机名

{Template OS Linux:system.uname.diff(0)}>0

6h

主机名更改

General

ICMP ping

ICMP ping

Triggers2

1m

ping失败

ICMP

Template ICMP: ICMP ping loss

ping丢包

Triggers

20s

丢包30%

丢包60%

丢包90%

ICMP

Template ICMP: ICMP response time

ping响应时间

Triggers

1m

待添加

待添加

待添加

Network interfaces

Incoming network dropped packets on eth0

表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。

1m

丢包告警

Network interfaces

outgoing network dropped packets on eth0

表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。

Triggers

1m

丢包告警

Network interfaces

Incoming network errors on eth0

表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。

{Template OS Linux:net.if.in[eth0,errors].last()}>0

1m

丢包告警

Outgoing network errors on eth0

表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。

Triggers

1m

丢包告警

Network interfaces

Incoming network overruns fifo on eth0

表示了 fifo 的 overruns,这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的,而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。

{Template OS Linux:net.if.in[eth0,overruns].last()}>0

1m

丢包告警

Network interfaces

Incoming network traffic on eth0

网卡带宽使用

{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65,{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100

1m

使用率大于50%

使用率大于70%

使用率大于90%

Network interfaces

Outgoing network traffic on eth0

网卡带宽使用

{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65,{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100

1m

使用率大于50%

使用率大于70%

使用率大于90%

Filesystems

IO_data_trapper

1m

OS

Maximum number of opened files

系统支持的最大打开文件数

1h

OS

Maximum number of processes

系统支持的最大进程数

1h

Network interfaces

Network ESTABLISHED

ESTABLISHED状态 连接数

1m

Network interfaces

network invalid SYN cookies received

三次握手ack包,syncookies校验没通过

1m

Network interfaces

network packets pruned from receive queue because of socket buffer overrun

超过tcp net.ipv4.tcp_rmem缓存区大小,丢弃的包

1m

Network interfaces

network packets rejects in established connections because of timestamp

在建立连接过程中,因时间戳问题而丢弃包

1m

Network interfaces

network resets received for embryonic SYN_RECV sockets

状态下,收到非重传的syn包,则返回reset(半连接重置)

1m

Network interfaces

network SYNs to LISTEN sockets ignored

收到三次握手ack包,因各种原因(包括accept队列满) 创建socket失败

1m

Network interfaces

Network SYN_RECV

SYN_RECV状态 连接数

1m

Network interfaces

network times the listen queue of a socket overflowed

accept队列满时收到的三次握手ack包

1m

Network interfaces

Network TIME_WAIT

TIME_WAIT 状态 连接数

1m

ssh_Login

No jump SSH Login

1m

不通过跳板机告警

General

ntpq status

ntp状态

{Template OS Linux:ntpq.status.count(#6,"LOCAL")}=6

10m

告警

Service

NTP service

Triggers3

1m

告警

CPU

Number of CPU

CPU核数

1d

Processes

Number of processes

进程数

Triggers

5m

1000

2000

3000

Processes

Number of running processes

正在运行的进程数

Triggers

1m

CPU

Processor load (avg1)

进程一分钟负载

Triggers4

1m

cpu负载大于50%(根据核数)

cpu负载大于70%(根据核数)

cpu负载大于90%(根据核数)

ssh_Login

ssh port

ssh端口连通行

{Template OS Linux:ssh_port.last()}<>22 and ({Template OS Linux:ssh_port.last()}<>10022)

5m

ssh port doesn't 22 or 10022

General

System localtime

zabbix agent no data

{Template OS Linux:system.localtime.nodata(30m)}=1 and {Template OS Linux:icmpping.last(0)}=1

3m

没数据告警

General

System uptime

系统启动

{Template OS Linux:system.uptime.change(0)}<0

10m

系统重启告警

Memory

Total memory

内从总数

12h

Memory

Used memory

使用的内存数量

1m

Filesystems

diskstat_IOerror.[{#DISK_NAME}]

磁盘错误

{Template OS Linux:diskstat_IOerror[{#DISK_NAME}].last()}>0

有异常就告警

Filesystems

IO_await.[{#DISK_NAME}]

IO 等待

Filesystems

IO_svctm.[{#DISK_NAME}]

IO平均服务时间

Filesystems

IO_tps.[{#DISK_NAME}]

IO_tps

Filesystems

IO_util.[{#DISK_NAME}]

IO使用率

Filesystems

Free disk space on {#FSNAME}

剩余磁盘

1m

Filesystems

Free disk space on {#FSNAME} (percentage)

剩余磁盘百分比

1m

剩余30%

剩余10%

剩余5%

Filesystems

Free inodes on {#FSNAME} (percentage)

剩余inodes百分比

2m

剩余30%

剩余10%

剩余5%

Filesystems

Total disk space on {#FSNAME}

磁盘总量

12h

Filesystems

Used disk space on {#FSNAME}

已经使用的磁盘空间大小

2m

APP

{#APP_NAME} is down

APP进程down

1m

down告警

JVM

70% http-{#TOMCAT_PORT} worker threads busy on {HOST.NAME}

繁忙线程数

繁忙线程数大于最大线程数的70%告警

JVM

{#APP_NAME} tomcat port {#TOMCAT_PORT} GlobalRequestProcessor errorCount

每秒请求错误数

大于5告警

JVM

{#APP_NAME} 70% mem Heap Memory used on {HOST.NAME}

堆内存已使用

堆内存已使用大于%告警

JVM

{#APP_NAME} 70% mem Non-Heap Memory used on {HOST.NAME}

非堆内存使用

非堆内存已使用大于%告警

JVM

{#APP_NAME} 70% os Opened File Descriptor Count used on {HOST.NAME}

打开文件数

打开文件数大于%告警

JVM

{#APP_NAME} 90% mp CMS Old Gen used on {HOST.NAME}

年老代已用大于%告警

JVM

{#APP_NAME} FULL GC Interval time

APP 在10分钟内GC次数超过1次,触发告警。(注GC为CMS GC

告警

JVM

{#APP_NAME} mem Heap Memory fully committed on {HOST.NAME}

堆内存

堆内存等于最大非堆内存告警

JVM

{#APP_NAME} mem Non-Heap Memory fully committed on {HOST.NAME}

非堆内存

非堆内存等于最大非堆内存告警

JVM

{#APP_NAME} mp CMS Old Gen fully committed on {HOST.NAME}

永久代等于永久代最大数

告警

nginx 

nginx ping 

nginx was down!

kafka 监控项

服务名

监控项

描述

告警阈值

kafka

of under replicated partitions (|ISR| < |all replicas|)

所有副本未复制分区的数量

>0

Bytes In Per Sec FifteenMinuteRate

每15分钟生产的数据

最近一次的值比上一次的少30%,或者当前最近一次的值小于1

Bytes In Per Sec FiveMinuteRate

每5分钟的数据

Bytes In Per Sec MeanRate

每分钟平均生产的数据

Bytes In Per Sec OneMinuteRate

每1分钟生产的数据

Bytes Out Per Sec FifteenMinuteRate

每15分钟消费的数据

最近一次的值比上一次的少30%,或者当前最近一次的值小于1

Bytes Out Per Sec FiveMinuteRate

每5分钟消费的数据

Bytes Out Per Sec MeanRate

每分钟平均消费数据

Bytes Out Per Sec OneMinuteRate

每5分钟消费的数据

Daemon threads

kafka进程

最近一次小于1

G1 Old Generation Count

内存老年代数

G1 Young Generation Count

内存新生代数

HeapMemoryUsage

堆内存使用情况6-8g

大于5g

Is controller active on broker

节点控制器

ISR expansion rate

副本状态 

Open File Descriptor Count

打开的文件描述符数

大于20000

kafka topic {#PROPTOPIC} lag

topic延迟数,最近10次的值的最小值大于4000,为真则告警

集群

response time + request time

请求加返回时长

1s

result 值,

节点是否可用

非0

clusterNums

集群节点数量

(last() - last(2)) > 0

controllers active

控制节点数

所有节点都不为1,或者发生变化

rabbitmq 监控项

指标

具体含义

监控告警值

目前是否有告警

备注

rabbitmq.node.fd_used

已使用的文件描述符数量

没设定

rabbitmq.node.mem_used

内存使用字节数

没设定

rabbitmq.node.run_queue

等待运行的 Erlang 进程数量

没设定

rabbitmq.node.sockets_used

以 socket 方式使用掉的文件描述符数量

没设定

rabbitmq deliver rate

集群中总的delive数据 

>25000

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

rabbitmq exchanges num

集群中总的exchange数量

>25

是(未开启)

rabbitmq node disk free limit

硬盘超过水位线

内存2位(正常32G)

Disaster

rabbitmq node memory limit

内存超过水位线

40%

Disaster

rabbitmq node partitions

网络分区

>2

Disaster

rabbitmq queues num

一个exchange绑定队列的总数

>3

已关闭

rabbitmq node running status

node节点状态

=0

Disaster

rabbitmq node memory used

CPU使用率

>40%

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

CPU load is overloaded (high)

CPU负载

>cpu总量二分之一

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

生产者连接失败

在调试

通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人

消费者绑定失败

在调试

通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人

Exchange消息进入的速率

>3000

每秒不超过3000

Exchange消息出去的速率

>90000

每秒不超过9000

Queues消费者提交的速率

>30000

在调试

每秒不超过3000

Queues消费者接收的速率

>30000

在调试

每秒不超过3000

exchange新增变更

>N+1

在原有exchange的基础上新增都发Warning告警通知

每秒发出的数据包

>500kb

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

每秒收到的数据包

>500kb

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

flow

Disaster 

一次触发告警

网络流量

>200M

在调试

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

Memory增量

Memory环比增加>20%

在调试

根据最高值计算环比增加>20%触发告警

CPU增量

CPU环比增加>10%

在调试

根据最高值计算环比增加>10%触发告警

硬盘ops

>300

在调试

第一次取值为:  Information,持续3分钟为:Warning

持续5分钟为High

elasticsearch 监控项

指标

具体的含义

zabbix告警值

巡检预警值

备注

monitor_process[elasticsearch]

进程是否存在

<1 ,且原先值>0

elasticsearch[cluster_indices_indexing_index_total]

集群总的写入tps

明显高于/低于同期数值

zabbix监控中已转换为速率

elasticsearch[{#NODE},heap_committed_in_bytes]

已提交的JVM堆量

elasticsearch[{#NODE},heap_used_percent]

当前JVM堆占比

>75%

elasticsearch[{#NODE},http_current_open]

当前打开的HTTP连接数

elasticsearch[{#NODE},http_total_opened]

一共打开的HTTP连接数

elasticsearch[{#NODE},indices_indexing_flush_total]

flush 次数

elasticsearch[{#NODE},indices_indexing_flush_total_time_in_millis]

flush 总耗时

elasticsearch[{#NODE},indices_indexing_index_current]

当前写入index的数据量

elasticsearch[{#NODE},indices_indexing_index_time_in_millis]

当前写入index的耗时

elasticsearch[{#NODE},indices_indexing_index_total]

当前写入index的次数

elasticsearch[{#NODE},indices_indexing_refresh_total]

写入index后执行refresh的总次数

elasticsearch[{#NODE},indices_indexing_refresh_total_time_in_millis]

写入index后执行refresh的总耗时

elasticsearch[{#NODE},indices_search_fetch_current]

当前写入search fetch段的次数

elasticsearch[{#NODE},indices_search_fetch_time_in_millis]

当前写入search fetch段的耗时

elasticsearch[{#NODE},indices_search_fetch_total]

当前写入search fetch段的总次数

elasticsearch[{#NODE},indices_search_query_current]

当前写入search query段的次数

elasticsearch[{#NODE},indices_search_query_time_in_millis]

当前写入search query段的耗时

elasticsearch[{#NODE},indices_search_query_total]

当前写入search query段的总次数

明显高于/低于同期数值

zabbix监控中已转换为速率

elasticsearch[{#NODE},indices_search_query_latency]

平均查询延迟,前两项值相除计算得到

>1

usertag集群为 >10

elasticsearch[{#NODE},old_collection_count]

老年代垃圾回收总数

业务集群: >0

日志集群: >100

elasticsearch[{#NODE},old_collection_time_in_millis]

老年代垃圾回收总耗时

elasticsearch[{#NODE},thread_pool_bulk_queue]

当前队列中的bulk提交

业务集群: >0

日志集群: >100

elasticsearch[{#NODE},thread_pool_bulk_rejected]

当前队列中的bulk被拒绝的次数

 >0 

elasticsearch[{#NODE},thread_pool_get_completed]

当前队列中的get方式被拒绝的次数

elasticsearch[{#NODE},thread_pool_index_queue]

当前队列中的index方式的队列

elasticsearch[{#NODE},thread_pool_index_rejected]

当前队列中的index方式被拒绝的次数

 >0 

elasticsearch[{#NODE},thread_pool_search_completed]

当前搜索成功的处理次数,相当于qps

>700(warnings)

elasticsearch[{#NODE},thread_pool_search_queue]

当前搜索队列的排队情况

elasticsearch[{#NODE},thread_pool_search_rejected]

搜索被拒绝的次数

 >0 

elasticsearch[{#NODE},young_collection_count]

年轻代垃圾回收总耗时

elasticsearch[{#NODE},young_collection_time_in_millis]

年轻代垃圾回收总耗时

zookeeper监控项

服务名

监控项

描述

告警阈值

zookeeper

zookeeper_status[max_file_descriptor]

zk打开最大的文件描述符

85%

open_file_descriptor

ZK打开的文件描述符

85%

zk_avg_latency

zk平均延迟

10

zk_outstanding_requests

ZK未完成的请求

>2

zk_server_state

zk 服务器状态

zookeeper_status[zk_followers]

zk从节点状态

zk_pending_syncs

zk 同步错误状态

>0

zk_synced_followers

zk从节点同步数

zk_followers

zk从节点监控

名称

默认报警阈值

单位

默认报警间隔(分钟)

默认报警频率(报警间隔内发生n次则报警)

默认报警形式

备注

机器流量监控

10240

KB/s

10

2

Waring

实例运行状态监控

true

10

1

Waring

true表示实例正常运行

实例连接数监控

3000

30

10

Waring

平均延时监控

10

毫秒

30

3

Waring

所有实例平均延时中的最大值作为集群平均延时

实例打开文件描述符数量监控

5000

30

10

Waring

机器平均负载监控

4

10

2

High

最大延时监控

500

毫秒

30

3

Waring

所有实例最大延时中的最大值作为集群最大延时

机器CPU监控

70

%

10

2

High

机器内存使用率监控

70

%

10

2

High

机器磁盘使用率监控

70

%

10

2

High

监控dataDir所在磁盘使用率

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lefooter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值