ES 监控指标

红色为能够反映集群状态异常的关键指标

蓝色为需重点关注的性能指标

告警阈值均设置为宏变量,可根据集群情况自定义,表格中均为默认值

ES进程监控模板

指标

具体的含义

监控间隔

Warning

High

Disaster

备注

proc.num[,,,bootstrap.Elasticsearch]

检测ES进程是否存活

30s

<1 ,且原先值>0

ES节点监控模板

指标

具体的含义

监控间隔

Warning

High

Disaster

备注

集群汇总指标

cluster_status

集群状态(0-green 1-yellow 2-red)

1m

yellow(值=1)

red(值=2)

cluster_nodes_count

集群总节点数

1m

有节点离开集群

(本次数值<上次数值)

cluster_indices_count

集群开启状态的索引数

1m

cluster_indices_indexing_index_total

集群总的写入TPS

1m

业务集群当前值比5分钟/1天前均值增长/下降20%

总写入<20

在zabbix中已转为速率,以下所有total值相同

cluster_indices_search_query_total

集群总的查询QPS

1m

业务集群当前值比5分钟/1天前均值增长/下降20%

总查询<20

各节点指标

es_roles

es节点角色

1m

heap_committed_in_bytes

已提交的JVM堆量

1m

heap_used_percent

JVM堆内存使用比例

1m

>80%

http_current_open

当前打开的HTTP连接数

1m

http_total_opened

一共打开的HTTP连接数

1m

indices_indexing_flush_total

flush 次数

1m

indices_indexing_flush_total_time_in_millis

flush 总耗时

1m

indices_indexing_index_current

当前写入值

1m

indices_indexing_index_time_in_millis

写入总耗时

1m

indices_indexing_index_total

写入数量(TPS)

1m

业务集群 >5000

日志集群 >20000

indexing_latency

写入延时

1m

业务集群> 10ms

写入总耗时/写入数量

indices_indexing_refresh_total

写入index后执行refresh的总次数

1m

indices_indexing_refresh_total_time_in_millis

写入index后执行refresh的总耗时

1m

indices_search_fetch_current

当前写入search fetch段的次数

1m

indices_search_fetch_time_in_millis

当前写入search fetch段的耗时

1m

indices_search_fetch_total

当前写入search fetch段的总次数

1m

indices_search_query_current

当前写入search query段的次数

1m

indices_search_query_time_in_millis

查询总耗时

1m

indices_search_query_total

查询数量(TPS)

1m

日志集群 无

业务集群 >700

search_latency

查询延时

1m

业务集群 >10ms

查询总耗时/查询数量

old_collection_count

old gc数量

1m

日志集群 >100

业务集群 >0

old_collection_time_in_millis

old gc耗时

1m

thread_pool_bulk_queue

bulk写入请求队列长度

1m

日志集群 >100

业务集群 >10

ES5 有此指标

thread_pool_bulk_rejected

bulk写入请求被拒绝的次数

1m

日志集群 >0

日志集群 >0 

ES5 有此指标

thread_pool_write_queue

write写入请求队列长度

1m

日志集群 >100

业务集群 >10

ES6 及以上有此指标

thread_pool_write_rejected

write写入请求被拒绝的次数

1m

日志集群 >0

日志集群 >0 

ES6 及以上有此指标

thread_pool_get_completed

get请求被拒绝的次数

1m

thread_pool_index_queue

index写入请求队列长度

1m

thread_pool_index_rejected

index写入请求被拒绝的次数

1m

thread_pool_search_completed

当前搜索成功的处理次数

1m

thread_pool_search_queue

查询请求队列长度

1m

日志集群 >100

业务集群 >0

thread_pool_search_rejected

查询请求被拒绝的次数

1m

日志集群 >0

业务集群 >0

young_collection_count

young gc数量

1m

young_collection_time_in_millis

young gc耗时

2m

ES索引监控模板

指标

具体的含义

监控间隔

Warning

High

Disaster

备注

集群汇总指标

cluster_no_hidden_indices_count

排除掉以.开头的索引外的索引总数

1m

cluster_primaries_xxx

各索引监控指标都有对应的集群汇总指标

1m

各节点指标

index_type

索引类型(索引或别名)

1m

primaries_docs_count

索引文档数

1m

primaries_size_in_bytes

索引大小

1m

primaries_segments_count

segment数量

1m

primaries_segments_memory_in_bytes

segment使用内存

1m

primaries_indexing_index_total

写入速率

1m

primaries_indexing_index_time_in_millis

写入总耗时

1m

indexing_latency

写入延时

1m

写入总耗时/写入速率

primaries_search_query_total

查询速率

1m

primaries_search_scroll_time_in_millis

查询总耗时

1m

search_latency

查询延时

1m

查询总耗时/查询速率

primaries_search_fetch_total

fetch查询速率

1m

primaries_search_fetch_time_in_millis

fetch查询总耗时

1m

primaries_search_scroll_total

scroll查询速率

1m

primaries_search_scroll_time_in_millis

scroll查询总耗时

1m

primaries_indexing_delete_total

delete操作速率

1m

primaries_indexing_delete_time_in_millis

delete操作总耗时

1m

primaries_merges_total

merge操作速率

1m

primaries_merges_total_time_in_millis

merge操作总耗时

1m

primaries_refresh_total

refresh操作速率

1m

primaries_refresh_total_time_in_millis

refresh操作总耗时

1m

Prometheus是一种一站式监控告警平台,它支持对云或容器的监控,并且具有功能齐全、依赖少的特点。相比其他系统主要对主机监控,Prometheus具有更强大的数据查询语句表现力和内置统计函数。然而,在数据存储扩展性和持久性方面,Prometheus不如InfluxDB、OpenTSDB和Sensu好。\[1\] 要对elasticsearch进行监控,可以使用基于事件的触发来修改指标的值。通常,这些指标需求来自业务方面,例如自研的应用需要将相关指标暴露给Prometheus进行监控和展示。在自研应用的代码中嵌入指标采集的代码(指标定义和设置值),可以实现这一目的。\[2\] 此外,任何遵循Prometheus数据格式并提供监控指标的程序都可以称为Exporter。在Prometheus社区中,有许多可供选择的Exporter,如node_exporter。这些Exporter可以帮助我们监控各种不同的系统和服务。\[3\] 综上所述,要详细了解Prometheus对elasticsearch监控指标,可以使用基于事件的触发来修改指标的值,并使用适当的Exporter来收集和展示这些指标。 #### 引用[.reference_title] - *1* [prometheus 监控概述](https://blog.csdn.net/WuDan_1112/article/details/126074566)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Prometheus监控实战之exporter详解](https://blog.csdn.net/ygq13572549874/article/details/129114047)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lefooter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值