阿里云基础设施监控指标和水位
基础设施
设施 | 监控项 | 说明 | Warning | High | Disaster | 阿里云 | zabbix |
域名 | 证书过期时间 | ||||||
高防 | 被DDOS攻击清洗,会有邮件和短信提醒 | ||||||
ping 可达性性探测 | 线上(公司)zabbix ping | 不可达 | |||||
ping 丢包率探测 | 线上(公司)zabbix ping | 丢包 | |||||
清洗 | 消息通知 | 完成 | |||||
黑洞 | 云服务器遭受大量攻击,且超过免费防御的流量值时,进入黑洞,消息通知 | 完成 | |||||
QPS | 正常业务QPS: 3000, 超出后不会立即限速,限速通知 | 完成 | |||||
业务带宽 | 正常业务带宽:600M, 超出后不会立即限速,限速通知 | 完成 | |||||
WAF | CC攻击时,QPS突增 | CC攻击时,QPS突增 | 超过10% | ||||
CC攻击时,4XX请求占比 | CC攻击时,4XX请求占比 | 超过3% | 超过5% | ||||
CC攻击时,5XX请求占比 | CC攻击时,5XX请求占比 | 超过0.3% | 超过0.5% | ||||
DDOS事件导致黑洞 | 消息通知 | 完成 | |||||
黑洞结束 | 消息通知 | 完成 | |||||
CC攻击时,QPS值和QPS突增占比 | QPS超过2000和QPS突增占比超过10% | 完成 | |||||
CC攻击时,4XX QPS值和4XX请求占比 | 4XX QPS超过2000和4XX请求占比超过3% | 完成 | |||||
CC攻击时,5XX QPS值和5XX请求占比 | 5XX QPS超过2000和5XX请求占比0% | 占比仅支持整数,已完成 | |||||
集中大量的Web扫描事件 | 集中大量的Web扫描事件 | 超过 1000次/5分钟 | 完成 | ||||
QPS | 正常业务QPS: 25000, 超出后不会立即限速,限速通知 | 完成 | |||||
业务带宽 | 正常业务带宽:600M , 超出后不会立即限速,限速通知 | 完成 | |||||
SLB | InstanceDropPacketRX | 实例丢弃流入数据包数 | 有异常就告警 | 完成 | |||
InstanceDropPacketTX | 实例丢弃流出数据包数 | 有异常就告警 | 完成 | ||||
InstanceDropConnection | 实例丢弃连接数 | 有异常就告警 | 完成 | ||||
InstanceMaxConnection | 实例级别最大连接数 | >50% | >75% | >90% | |||
InstanceMaxConnectionUtilization | 最大连接数使用率 | >75% | >90% | 75/90,已完成 | |||
InstanceNewConnection | 实例级别新建连接数 | >50% | >75% | >90% | |||
InstanceNewConnectionUtilization | 每秒新建连接数使用率 | >75% | >90% | 75/90,已完成 | |||
InstanceQpsUtilization | QPS使用率 | >50% | >75% | >90% | 75/90,已完成 | ||
InstanceTrafficRX | 实例流入带宽 | >50% | >75% | >90% | 75/90,已完成 | ||
InstanceTrafficTX | 实例流出带宽 | >50% | >75% | >90% | 75/90,已完成 | ||
UnhealthyServerCount | 端口后端异常ECS实例数 | 1 | 完成 | ||||
HeathyServerCount | 端口后端健康ECS实例数 | 0 | 完成 | ||||
PORT ActiveConnection | 端口级别活跃连接数 | ||||||
PORT NewConnection | 端口级别新建连接数 | ||||||
PORT Qps | 端口级别QPS | ||||||
PORT Rt | 端口级别响应时间 | ||||||
PORT StatusCode4xx | 端口级别4XX数量 | ||||||
PORT StatusCode5xx | 端口级别5XX数量 | ||||||
PORT UpstreamCode4xx | 端口级别后端4XX数量 | ||||||
PORT UpstreamCode5xx | 端口级别后端5XX数量 | ||||||
PORT UpstreamRt | 端口级别后端响应时间 | ||||||
PORT TrafficRX | 端口流入带宽 | >50% | >75% | >90% | 70/90,已完成 | ||
PORT TrafficTX | 端口流出带宽 | >50% | >75% | >90% | 70/90,已完成 | ||
NAT | SnatConnectionDrop_ConcurrentConnectionLimit | 历史累积最大限制丢弃连接数 | 异常有值就告警 | 完成 | |||
SnatConnectionDrop_ConnectionRateLimit | 历史累积新建限制丢弃连接数 | 异常有值就告警 | 完成 | ||||
SnatConnection | 连接数 | ||||||
net_rx.rate | 进带宽流量 | 60mbps | 70bpms | 90mbps | 70/90,已完成 | ||
net_tx.rate | 出带宽流量 | 60mbps | 70bpms | 90mbps | 70/90,已完成 | ||
net_tx.ratePercent | 出带宽流量百分比 | >70% | >85% | >95% | 85/95,已完成 | ||
EIP | net_rx | 进带宽 | >130M | >160M | >180M | 160/180,已完成 | |
net_tx | 出带宽 | >130M | >160M | >180M | 160/180,已完成 | ||
Connection | 连接数 | ||||||
out_ratelimit_drop_speed | 限速丢包速率 | 异常有值就告警 | 完成 | ||||
EIP ping 公司 | 丢包率 | 丢包、不可达 | |||||
OSS | SuccessCount | 成功请求总数(返回状态码为2xx的请求总数) Bucket层级 | |||||
SuccessRate | 成功请求占比 Bucket层级 | ||||||
AuthorizationErrorCount | 客户端授权错误请求总数 Bucket层级 | ||||||
AuthorizationErrorRate | 客户端授权错误请求占比 Bucket层级 | ||||||
NetworkErrorCount | 网络错误请求总数(HTTP状态码为499的请求总数) Bucket层级 | ||||||
NetworkErrorRate | 网络错误请求占比 Bucket层级 | ||||||
ServerErrorRate | 服务端错误请求占比 Bucket层级 | ||||||
NetworkErrorCount | 网络错误请求总数 Bucket层级 | ||||||
ResourceNotFoundErrorCount | 客户端资源不存在错误请求总数 Bucket层级 | ||||||
ResourceNotFoundErrorRate | 客户端资源不存在错误请求占比 Bucket层级 | ||||||
RequestValidRate | 有效请求率 Bucket层级 | ||||||
TotalRequestCount | 总请求数 Bucket层级 | ||||||
ClientTimeoutErrorCount | 客户端超时错误请求总数 Bucket层级 | ||||||
ClientOtherErrorRate | 客户端超时错误请求占比 Bucket层级 | ||||||
GetObjectE2eLatency GetObject | 请求平均E2E延时 Bucket层级 | ||||||
HeadObjectE2eLatency HeadObject | 请求平均E2E延时 Bucket层级 | ||||||
PutObjectE2eLatency PutObject | 请求平均E2E延时 Bucket层级 | ||||||
PostObjectE2eLatency PostObject | 请求平均E2E延时 Bucket层级 | ||||||
AppendObjectE2eLatency AppendObject | 请求平均E2E延时 Bucket层级 | ||||||
UploadPartE2eLatency UploadPart | 请求平均E2E延时 Bucket层级 | ||||||
CDN (细化域名级别定制宏变量告警阀值监控制) | DescribeDomainSrcHttpCodeData | 获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。4XX率 | |||||
DescribeDomainSrcHttpCodeData | 获取加速域名最小5分钟粒度的回源HTTP返回码占比数据。5XX率 | ||||||
DescribeDomainHttpCodeData | 获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX | ||||||
DescribeDomainHttpCodeData | 获取加速域名最小5分钟粒度的HTTP返回码占比数据。4XX | ||||||
DescribeDomainHttpCodeData | 获取加速域名最小5分钟粒度的HTTP返回码占比数据。 | ||||||
NAS | |||||||
域名 | 解析 | 公司zabbix节点操作 | 无解析 | ||||
ping 外网 | 公司zabbix节点操作 | 不可达 | |||||
内网域名 | 内网 ping | 阿里云zabbix节点操作 | 不可达 |
ZABBIX
ECS基础监控
大类 | 监控项 | 说明 | 触发器 | 监控间隔 | Warning | High | Disaster | 阿里云 | zabbix |
Memory | Available memory | 可用内存(包含缓存) | {Template OS Linux:vm.memory.size[available].last()}<{$AVAIL_MEM} | 1m | 1000M小于多少内存 | 500M小于多少内存 | 200M小于多少内存 | ||
Memory | Available memory in % | 可用内存百分比 | available memory less than {$AVAIL_MEM_P}% | 1m | 小于10%多少内存 | 小于5%多少内存 | 小于3%多少内存 | ||
Memory | Buffers memory | buffers缓存区大小 | 1m | ||||||
Memory | Cached memory | Cache缓存区大小 | 1m | ||||||
General | check ecs no use | 是否使用率较低 | 30m | ||||||
Security | Checksum of /etc/ssh/sshd_config | 检查sshd_config是否有被更改 | {VECS02335:vfs.file.cksum[/etc/ssh/sshd_config].diff()}=1 | 10m | 有更改则告警 | ||||
Security | Checksum of /etc/sysconfig/iptables | 检查iptables是否有被更改 | {VECS02335:vfs.file.cksum[/etc/sysconfig/iptables].diff()}=1 | 10m | 有更改则告警 | ||||
Security | Checksum of /var/log/userlog.info | 检查userlog.info是否有被更改 | 1d | 没变更就报警 | |||||
CPU | CPU system time | 系统态使用的cpu时间比 | 1m | ||||||
CPU | CPU iowait time | cpu等待磁盘写入完成时间 | {VECS02335:system.cpu.util[,iowait].count(#3,{$IOWAIT_THRESHOLD},"gt")}=3 | 1m | CPU iowait 连续三分钟大于10% | CPU iowait 连续三分钟大于15% | CPU iowait 连续三分钟大于20% | ||
CPU | CPU user time | 用户态使用的cpu时间比 | 1m | ||||||
CPU | CPU idle time | 空闲的cpu时间比 | 1m | ||||||
CPU | CPU used | CPU使用比 | {VECS02335:cpu_used.min({$CPUUSED_COUNT_TIME})}>{$CPUUSED} | 1m | cpu used 最近 分钟高于50% 请注意 | cpu used 最近 分钟高于70% 请注意 | cpu used 最近 分钟高于90% 请注意 | ||
CPU | cpu_load_min\ cpu_num | CPU负载 | {VECS02335:Processor_Time.count(#5,{$CPULOAD_NUM_P},gt)}=5 | 1m | cpu负载大于80% | cpu负载大于90% | cpu负载大于100% | ||
Filesystems | Disk I/O error | 磁盘报错 | {Template OS Linux:log[/var/log/messages,"I/O error",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"I/O error",,,,].nodata(60)}=0 | 5s | /var/log/messages磁盘报错信息 | ||||
Filesystems | Disk panic | {Template OS Linux:log[/var/log/messages,"Aborting",,,,].str(Aborting)}=1 and {Template OS Linux:log[/var/log/messages,"Aborting",,,,].nodata(60)}=0 | 20s | ||||||
Filesystems | Disk read ops | 1m | 展示不添加 | ||||||
Filesystems | Disk write ops | 1m | 展示不添加 | ||||||
General | Host boot time | 主机启动时间 | 12h | ||||||
General, OS | Host name | 主机名 | 12h | ||||||
General | Host name and operating system | 主机名 | {Template OS Linux:system.uname.diff(0)}>0 | 6h | 主机名更改 | ||||
General | ICMP ping | ICMP ping | Triggers2 | 1m | ping失败 | ||||
ICMP | Template ICMP: ICMP ping loss | ping丢包 | Triggers | 20s | 丢包30% | 丢包60% | 丢包90% | ||
ICMP | Template ICMP: ICMP response time | ping响应时间 | Triggers | 1m | 待添加 | 待添加 | 待添加 | ||
Network interfaces | Incoming network dropped packets on eth0 | 表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。 | 1m | 丢包告警 | |||||
Network interfaces | outgoing network dropped packets on eth0 | 表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。 | Triggers | 1m | 丢包告警 | ||||
Network interfaces | Incoming network errors on eth0 | 表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。 | {Template OS Linux:net.if.in[eth0,errors].last()}>0 | 1m | 丢包告警 | ||||
Outgoing network errors on eth0 | 表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。 | Triggers | 1m | 丢包告警 | |||||
Network interfaces | Incoming network overruns fifo on eth0 | 表示了 fifo 的 overruns,这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的,而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。 | {Template OS Linux:net.if.in[eth0,overruns].last()}>0 | 1m | 丢包告警 | ||||
Network interfaces | Incoming network traffic on eth0 | 网卡带宽使用 | {Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65,{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100 | 1m | 使用率大于50% | 使用率大于70% | 使用率大于90% | ||
Network interfaces | Outgoing network traffic on eth0 | 网卡带宽使用 | {Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}0.65,{Template OS Linux:net.if.in[eth0].last()}>{$ETH0_TRAFFIC_THRESHOLD}{$TRAFFIC_THRESHOLD_PERCENT_H}/100 | 1m | 使用率大于50% | 使用率大于70% | 使用率大于90% | ||
Filesystems | IO_data_trapper | 1m | |||||||
OS | Maximum number of opened files | 系统支持的最大打开文件数 | 1h | ||||||
OS | Maximum number of processes | 系统支持的最大进程数 | 1h | ||||||
Network interfaces | Network ESTABLISHED | ESTABLISHED状态 连接数 | 1m | ||||||
Network interfaces | network invalid SYN cookies received | 三次握手ack包,syncookies校验没通过 | 1m | ||||||
Network interfaces | network packets pruned from receive queue because of socket buffer overrun | 超过tcp net.ipv4.tcp_rmem缓存区大小,丢弃的包 | 1m | ||||||
Network interfaces | network packets rejects in established connections because of timestamp | 在建立连接过程中,因时间戳问题而丢弃包 | 1m | ||||||
Network interfaces | network resets received for embryonic SYN_RECV sockets | 状态下,收到非重传的syn包,则返回reset(半连接重置) | 1m | ||||||
Network interfaces | network SYNs to LISTEN sockets ignored | 收到三次握手ack包,因各种原因(包括accept队列满) 创建socket失败 | 1m | ||||||
Network interfaces | Network SYN_RECV | SYN_RECV状态 连接数 | 1m | ||||||
Network interfaces | network times the listen queue of a socket overflowed | accept队列满时收到的三次握手ack包 | 1m | ||||||
Network interfaces | Network TIME_WAIT | TIME_WAIT 状态 连接数 | 1m | ||||||
ssh_Login | No jump SSH Login | 1m | 不通过跳板机告警 | ||||||
General | ntpq status | ntp状态 | {Template OS Linux:ntpq.status.count(#6,"LOCAL")}=6 | 10m | 告警 | ||||
Service | NTP service | Triggers3 | 1m | 告警 | |||||
CPU | Number of CPU | CPU核数 | 1d | ||||||
Processes | Number of processes | 进程数 | Triggers | 5m | 1000 | 2000 | 3000 | ||
Processes | Number of running processes | 正在运行的进程数 | Triggers | 1m | |||||
CPU | Processor load (avg1) | 进程一分钟负载 | Triggers4 | 1m | cpu负载大于50%(根据核数) | cpu负载大于70%(根据核数) | cpu负载大于90%(根据核数) | ||
ssh_Login | ssh port | ssh端口连通行 | {Template OS Linux:ssh_port.last()}<>22 and ({Template OS Linux:ssh_port.last()}<>10022) | 5m | ssh port doesn't 22 or 10022 | ||||
General | System localtime | zabbix agent no data | {Template OS Linux:system.localtime.nodata(30m)}=1 and {Template OS Linux:icmpping.last(0)}=1 | 3m | 没数据告警 | ||||
General | System uptime | 系统启动 | {Template OS Linux:system.uptime.change(0)}<0 | 10m | 系统重启告警 | ||||
Memory | Total memory | 内从总数 | 12h | ||||||
Memory | Used memory | 使用的内存数量 | 1m | ||||||
Filesystems | diskstat_IOerror.[{#DISK_NAME}] | 磁盘错误 | {Template OS Linux:diskstat_IOerror[{#DISK_NAME}].last()}>0 | 有异常就告警 | |||||
Filesystems | IO_await.[{#DISK_NAME}] | IO 等待 | |||||||
Filesystems | IO_svctm.[{#DISK_NAME}] | IO平均服务时间 | |||||||
Filesystems | IO_tps.[{#DISK_NAME}] | IO_tps | |||||||
Filesystems | IO_util.[{#DISK_NAME}] | IO使用率 | |||||||
Filesystems | Free disk space on {#FSNAME} | 剩余磁盘 | 1m | ||||||
Filesystems | Free disk space on {#FSNAME} (percentage) | 剩余磁盘百分比 | 1m | 剩余30% | 剩余10% | 剩余5% | |||
Filesystems | Free inodes on {#FSNAME} (percentage) | 剩余inodes百分比 | 2m | 剩余30% | 剩余10% | 剩余5% | |||
Filesystems | Total disk space on {#FSNAME} | 磁盘总量 | 12h | ||||||
Filesystems | Used disk space on {#FSNAME} | 已经使用的磁盘空间大小 | 2m | ||||||
APP | {#APP_NAME} is down | APP进程down | 1m | down告警 | |||||
JVM | 70% http-{#TOMCAT_PORT} worker threads busy on {HOST.NAME} | 繁忙线程数 | 繁忙线程数大于最大线程数的70%告警 | ||||||
JVM | {#APP_NAME} tomcat port {#TOMCAT_PORT} GlobalRequestProcessor errorCount | 每秒请求错误数 | 大于5告警 | ||||||
JVM | {#APP_NAME} 70% mem Heap Memory used on {HOST.NAME} | 堆内存已使用 | 堆内存已使用大于%告警 | ||||||
JVM | {#APP_NAME} 70% mem Non-Heap Memory used on {HOST.NAME} | 非堆内存使用 | 非堆内存已使用大于%告警 | ||||||
JVM | {#APP_NAME} 70% os Opened File Descriptor Count used on {HOST.NAME} | 打开文件数 | 打开文件数大于%告警 | ||||||
JVM | {#APP_NAME} 90% mp CMS Old Gen used on {HOST.NAME} | 年老代已用大于%告警 | |||||||
JVM | {#APP_NAME} FULL GC Interval time | APP 在10分钟内GC次数超过1次,触发告警。(注GC为CMS GC | 告警 | ||||||
JVM | {#APP_NAME} mem Heap Memory fully committed on {HOST.NAME} | 堆内存 | 堆内存等于最大非堆内存告警 | ||||||
JVM | {#APP_NAME} mem Non-Heap Memory fully committed on {HOST.NAME} | 非堆内存 | 非堆内存等于最大非堆内存告警 | ||||||
JVM | {#APP_NAME} mp CMS Old Gen fully committed on {HOST.NAME} | 永久代等于永久代最大数 | 告警 | ||||||
nginx | nginx ping | nginx was down! |
kafka 监控项
服务名 | 监控项 | 描述 | 告警阈值 |
kafka | of under replicated partitions (|ISR| < |all replicas|) | 所有副本未复制分区的数量 | >0 |
Bytes In Per Sec FifteenMinuteRate | 每15分钟生产的数据 | 最近一次的值比上一次的少30%,或者当前最近一次的值小于1 | |
Bytes In Per Sec FiveMinuteRate | 每5分钟的数据 | 无 | |
Bytes In Per Sec MeanRate | 每分钟平均生产的数据 | 无 | |
Bytes In Per Sec OneMinuteRate | 每1分钟生产的数据 | 无 | |
Bytes Out Per Sec FifteenMinuteRate | 每15分钟消费的数据 | 最近一次的值比上一次的少30%,或者当前最近一次的值小于1 | |
Bytes Out Per Sec FiveMinuteRate | 每5分钟消费的数据 | 无 | |
Bytes Out Per Sec MeanRate | 每分钟平均消费数据 | 无 | |
Bytes Out Per Sec OneMinuteRate | 每5分钟消费的数据 | 无 | |
Daemon threads | kafka进程 | 最近一次小于1 | |
G1 Old Generation Count | 内存老年代数 | 无 | |
G1 Young Generation Count | 内存新生代数 | 无 | |
HeapMemoryUsage | 堆内存使用情况6-8g | 大于5g | |
Is controller active on broker | 节点控制器 | 无 | |
ISR expansion rate | 副本状态 | 无 | |
Open File Descriptor Count | 打开的文件描述符数 | 大于20000 | |
kafka topic {#PROPTOPIC} lag | topic延迟数,最近10次的值的最小值大于4000,为真则告警 | 无 | |
集群 | response time + request time | 请求加返回时长 | 1s |
result 值, | 节点是否可用 | 非0 | |
clusterNums | 集群节点数量 | (last() - last(2)) > 0 | |
controllers active | 控制节点数 | 所有节点都不为1,或者发生变化 |
rabbitmq 监控项
指标 | 具体含义 | 监控告警值 | 目前是否有告警 | 备注 |
rabbitmq.node.fd_used | 已使用的文件描述符数量 | 没设定 | 无 | |
rabbitmq.node.mem_used | 内存使用字节数 | 没设定 | 无 | |
rabbitmq.node.run_queue | 等待运行的 Erlang 进程数量 | 没设定 | 无 | |
rabbitmq.node.sockets_used | 以 socket 方式使用掉的文件描述符数量 | 没设定 | 无 | |
rabbitmq deliver rate | 集群中总的delive数据 | >25000 | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High |
rabbitmq exchanges num | 集群中总的exchange数量 | >25 | 是(未开启) | |
rabbitmq node disk free limit | 硬盘超过水位线 | 内存2位(正常32G) | 是 | Disaster |
rabbitmq node memory limit | 内存超过水位线 | 40% | 是 | Disaster |
rabbitmq node partitions | 网络分区 | >2 | 是 | Disaster |
rabbitmq queues num | 一个exchange绑定队列的总数 | >3 | 已关闭 | |
rabbitmq node running status | node节点状态 | =0 | 是 | Disaster |
rabbitmq node memory used | CPU使用率 | >40% | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High |
CPU load is overloaded (high) | CPU负载 | >cpu总量二分之一 | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High |
生产者连接失败 | 在调试 | 通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人 | ||
消费者绑定失败 | 在调试 | 通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人 | ||
Exchange消息进入的速率 | >3000 | 是 | 每秒不超过3000 | |
Exchange消息出去的速率 | >90000 | 是 | 每秒不超过9000 | |
Queues消费者提交的速率 | >30000 | 在调试 | 每秒不超过3000 | |
Queues消费者接收的速率 | >30000 | 在调试 | 每秒不超过3000 | |
exchange新增变更 | >N+1 | 是 | 在原有exchange的基础上新增都发Warning告警通知 | |
每秒发出的数据包 | >500kb | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |
每秒收到的数据包 | >500kb | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |
flow | Disaster | 是 | 一次触发告警 | |
网络流量 | >200M | 在调试 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |
Memory增量 | Memory环比增加>20% | 在调试 | 根据最高值计算环比增加>20%触发告警 | |
CPU增量 | CPU环比增加>10% | 在调试 | 根据最高值计算环比增加>10%触发告警 | |
硬盘ops | >300 | 在调试 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |
elasticsearch 监控项
指标 | 具体的含义 | zabbix告警值 | 巡检预警值 | 备注 |
monitor_process[elasticsearch] | 进程是否存在 | <1 ,且原先值>0 | ||
elasticsearch[cluster_indices_indexing_index_total] | 集群总的写入tps | 无 | 明显高于/低于同期数值 | zabbix监控中已转换为速率 |
elasticsearch[{#NODE},heap_committed_in_bytes] | 已提交的JVM堆量 | 无 | ||
elasticsearch[{#NODE},heap_used_percent] | 当前JVM堆占比 | 无 | >75% | |
elasticsearch[{#NODE},http_current_open] | 当前打开的HTTP连接数 | 无 | ||
elasticsearch[{#NODE},http_total_opened] | 一共打开的HTTP连接数 | 无 | ||
elasticsearch[{#NODE},indices_indexing_flush_total] | flush 次数 | 无 | ||
elasticsearch[{#NODE},indices_indexing_flush_total_time_in_millis] | flush 总耗时 | 无 | ||
elasticsearch[{#NODE},indices_indexing_index_current] | 当前写入index的数据量 | 无 | ||
elasticsearch[{#NODE},indices_indexing_index_time_in_millis] | 当前写入index的耗时 | 无 | ||
elasticsearch[{#NODE},indices_indexing_index_total] | 当前写入index的次数 | 无 | ||
elasticsearch[{#NODE},indices_indexing_refresh_total] | 写入index后执行refresh的总次数 | 无 | ||
elasticsearch[{#NODE},indices_indexing_refresh_total_time_in_millis] | 写入index后执行refresh的总耗时 | 无 | ||
elasticsearch[{#NODE},indices_search_fetch_current] | 当前写入search fetch段的次数 | 无 | ||
elasticsearch[{#NODE},indices_search_fetch_time_in_millis] | 当前写入search fetch段的耗时 | 无 | ||
elasticsearch[{#NODE},indices_search_fetch_total] | 当前写入search fetch段的总次数 | 无 | ||
elasticsearch[{#NODE},indices_search_query_current] | 当前写入search query段的次数 | 无 | ||
elasticsearch[{#NODE},indices_search_query_time_in_millis] | 当前写入search query段的耗时 | |||
elasticsearch[{#NODE},indices_search_query_total] | 当前写入search query段的总次数 | 无 | 明显高于/低于同期数值 | zabbix监控中已转换为速率 |
elasticsearch[{#NODE},indices_search_query_latency] | 平均查询延迟,前两项值相除计算得到 | >1 | usertag集群为 >10 | |
elasticsearch[{#NODE},old_collection_count] | 老年代垃圾回收总数 | 无 | 业务集群: >0 日志集群: >100 | |
elasticsearch[{#NODE},old_collection_time_in_millis] | 老年代垃圾回收总耗时 | 无 | ||
elasticsearch[{#NODE},thread_pool_bulk_queue] | 当前队列中的bulk提交 | 无 | 业务集群: >0 日志集群: >100 | |
elasticsearch[{#NODE},thread_pool_bulk_rejected] | 当前队列中的bulk被拒绝的次数 | >0 | ||
elasticsearch[{#NODE},thread_pool_get_completed] | 当前队列中的get方式被拒绝的次数 | 无 | ||
elasticsearch[{#NODE},thread_pool_index_queue] | 当前队列中的index方式的队列 | 无 | ||
elasticsearch[{#NODE},thread_pool_index_rejected] | 当前队列中的index方式被拒绝的次数 | >0 | ||
elasticsearch[{#NODE},thread_pool_search_completed] | 当前搜索成功的处理次数,相当于qps | >700(warnings) | ||
elasticsearch[{#NODE},thread_pool_search_queue] | 当前搜索队列的排队情况 | 无 | ||
elasticsearch[{#NODE},thread_pool_search_rejected] | 搜索被拒绝的次数 | >0 | ||
elasticsearch[{#NODE},young_collection_count] | 年轻代垃圾回收总耗时 | 无 | ||
elasticsearch[{#NODE},young_collection_time_in_millis] | 年轻代垃圾回收总耗时 | 无 |
zookeeper监控项
服务名 | 监控项 | 描述 | 告警阈值 |
zookeeper | zookeeper_status[max_file_descriptor] | zk打开最大的文件描述符 | 85% |
open_file_descriptor | ZK打开的文件描述符 | 85% | |
zk_avg_latency | zk平均延迟 | 10 | |
zk_outstanding_requests | ZK未完成的请求 | >2 | |
zk_server_state | zk 服务器状态 | 无 | |
zookeeper_status[zk_followers] | zk从节点状态 | 无 | |
zk_pending_syncs | zk 同步错误状态 | >0 | |
zk_synced_followers | zk从节点同步数 | 无 | |
zk_followers | zk从节点监控 | 无 |
名称 | 默认报警阈值 | 单位 | 默认报警间隔(分钟) | 默认报警频率(报警间隔内发生n次则报警) | 默认报警形式 | 备注 | |
机器流量监控 | 10240 | KB/s | 10 | 2 | Waring | ||
实例运行状态监控 | true | 10 | 1 | Waring | true表示实例正常运行 | ||
实例连接数监控 | 3000 | 个 | 30 | 10 | Waring | ||
平均延时监控 | 10 | 毫秒 | 30 | 3 | Waring | 所有实例平均延时中的最大值作为集群平均延时 | |
实例打开文件描述符数量监控 | 5000 | 个 | 30 | 10 | Waring | ||
机器平均负载监控 | 4 | 10 | 2 | High | |||
最大延时监控 | 500 | 毫秒 | 30 | 3 | Waring | 所有实例最大延时中的最大值作为集群最大延时 | |
机器CPU监控 | 70 | % | 10 | 2 | High | ||
机器内存使用率监控 | 70 | % | 10 | 2 | High | ||
机器磁盘使用率监控 | 70 | % | 10 | 2 | High | 监控dataDir所在磁盘使用率 |