MongoDB 运行状态、性能监控,分析

这篇文章的目的是让你知道怎么了解你正在运行的Mongdb是否健康。转载自http://tech.lezi.com/archives/290

 

mongostat详解

mongo statmongostat是mongdb自带的状态检测工具,在命令行下使用。它会间隔固定时间获取mongodb的当前运行状态,并输出。如果你发现数据库突然变慢或者有其他问题的话,你第一手的操作就考虑采用mongostat来查看mongo的状态。

它的输出有以下几列:

  • inserts/s 每秒插入次数
  • query/s 每秒查询次数
  • update/s 每秒更新次数
  • delete/s 每秒删除次数
  • getmore/s 每秒执行getmore次数
  • command/s 每秒的命令数,比以上插入、查找、更新、删除的综合还多,还统计了别的命令
  • flushs/s 每秒执行fsync将数据写入硬盘的次数。
  • mapped/s 所有的被mmap的数据量,单位是MB,
  • vsize 虚拟内存使用量,单位MB
  • res 物理内存使用量,单位MB
  • faults/s 每秒访问失败数(只有Linux有),数据被交换出物理内存,放到swap。不要超过100,否则就是机器内存太小,造成频繁swap写入。此时要升级内存或者扩展
  • locked % 被锁的时间百分比,尽量控制在50%以下吧
  • idx miss % 索引不命中所占百分比。如果太高的话就要考虑索引是不是少了
  • q t|r|w 当Mongodb接收到太多的命令而数据库被锁住无法执行完成,它会将命令加入队列。这一栏显示了总共、读、写3个队列的长度,都为0的话表示mongo毫无压力。高并发时,一般队列值会升高。
  • conn 当前连接数
  • time 时间戳

使用profiler

Mongo profile类似于MySQL的slow log, MongoDB可以监控所有慢的以及不慢的查询。

Profiler默认是关闭的,你可以选择全部开启,或者有慢查询的时候开启。

1> use test
2switched to db test
3> db.setProfilingLevel(2);
4{"was" : 0 , "slowms" : 100, "ok" : 1} // "was" is the old setting
5> db.getProfilingLevel()
62

查看Profile日志

1> db.system.profile.find().sort({$natural:-1})
2{"ts" "Thu Jan 29 2009 15:19:32 GMT-0500 (EST)" "info" :
3"query test.$cmd ntoreturn:1 reslen:66 nscanned:0 query: { profile: 2 } nreturned:1 bytes:50" ,
4"millis" : 0} ...

3个字段的意义

  • ts:时间戳
  • info:具体的操作
  • millis:操作所花时间,毫秒

不多说,此处有官方文档。注意,造成满查询可能是索引的问题,也可能是数据不在内存造成因此磁盘读入造成。

使用Web控制台

mongodb web monitorMongodb自带了Web控制台,默认和数据服务一同开启。他的端口在Mongodb数据库服务器端口的基础上加1000,如果是默认的Mongodb数据服务端口(Which is 27017),则相应的Web端口为28017

这个页面可以看到

  • 当前Mongodb的所有连接
  • 各个数据库和Collection的访问统计,包括:Reads, Writes, Queries, GetMores ,Inserts, Updates, Removes
  • 写锁的状态
  • 以及日志文件的最后几百行(CentOS+10gen yum 安装的mongodb默认的日志文件位于/var/log/mongo/mongod.log)

可以参考右边的截图

db.stat()

获取当前数据库的信息,比如Obj总数、数据库总大小、平均Obj大小等

01> use test
02switched to db test
03> db.stats()
04{
05    "collections" : 9,
06    "objects" : 4278845,
07    "avgObjSize" : 224.56603031892953,
08    "dataSize" : 960883236,
09    "storageSize" : 1195438080,
10    "numExtents" : 59,
11    "indexes" : 13,
12    "indexSize" : 801931264,
13    "fileSize" : 6373244928,
14    "ok" : 1
15}

db.serverStatus()

获取服务器的状态

01{
02    "version" "1.6.5",
03    "uptime" : 7208469,
04    "uptimeEstimate" : 7138829,
05    "localTime" "Wed Oct 26 2011 22:23:07 GMT+0800 (CST)",
06    "globalLock" : {
07        "totalTime" : 7208469556704,
08        "lockTime" : 4959693717,
09        "ratio" : 0.000688036992871448,
10        "currentQueue" : {
11            "total" : 0,
12            "readers" : 0,
13            "writers" : 0
14        }
15    },
16    "mem" : {
17        "bits" : 64,
18        "resident" : 3131,
19        "virtual" : 6172,
20        "supported" true,
21        "mapped" : 4927
22    },
23    "connections" : {
24        "current" : 402,
25        "available" : 2599
26    },
27    "extra_info" : {
28        "note" "fields vary by platform",
29        "heap_usage_bytes" : 832531920,
30        "page_faults" : 8757
31    },
32    "indexCounters" : {
33        "btree" : {
34            "accesses" : 2821726,
35            "hits" : 2821725,
36            "misses" : 1,
37            "resets" : 0,
38            "missRatio" : 3.543930204420982e-7
39        }
40    },
41    "backgroundFlushing" : {
42        "flushes" : 120133,
43        "total_ms" : 73235923,
44        "average_ms" : 609.6236920746173,
45        "last_ms" : 1332,
46        "last_finished" "Wed Oct 26 2011 22:22:23 GMT+0800 (CST)"
47    },
48    "cursors" : {
49        "totalOpen" : 0,
50        "clientCursors_size" : 0,
51        "timedOut" : 238392
52    },
53    "repl" : {
54        "ismaster" true
55    },
56    "opcounters" : {
57        "insert" : 269351,
58        "query" : 19331151,
59        "update" : 14199331,
60        "delete" : 1,
61        "getmore" : 145575,
62        "command" : 55982302
63    },
64    "asserts" : {
65        "regular" : 0,
66        "warning" : 0,
67        "msg" : 0,
68        "user" : 27,
69        "rollovers" : 0
70    },
71    "ok" : 1
72}

需要关心的地方:

  • connections 当前连接和可用连接数,听过一个同行介绍过,mongodb最大处理到2000个连接就不行了(要根据你的机器性能和业务来设定),所以设大了没意义。设个合理值的话,到达这个值mongodb就拒绝新的连接请求,避免被太多的连接拖垮。
  • indexCounters:btree:misses 索引的不命中数,和hits的比例高就要考虑索引是否正确建立。你看我的”missRatio” : 3.543930204420982e-7,很健康吧。所以miss率在mongostat里面也可以看
  • 其他的都能自解释,也不是查看mongo健康状况的关键,就不说明了。

db.currentOp()

Mongodb 的命令一般很快就完成,但是在一台繁忙的机器或者有比较慢的命令时,你可以通过db.currentOp()获取当前正在执行的操作。

在没有负载的机器上,该命令基本上都是返回空的

1>  db.currentOp()
2"inprog" : [ ] }

以下是一个有负载的机器上得到的返回值样例:

1"opid" "shard3:466404288""active" false"waitingForLock" false"op""query""ns" "sd.usersEmails""query" : { }, "client_s" :"10.121.13.8:34473""desc" "conn" },

字段名字都能自解释。如果你发现一个操作太长,把数据库卡死的话,可以用这个命令杀死他

1> db.killOp("shard3:466404288")

MongoDB Monitoring Service

MongoDB Monitoring Service(MMS)是Mongodb厂商提供的监控服务,可以在网页和Android客户端上监控你的MongoDB状况。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Lepus(天兔)是数据库企业监控系统,针对互联网企业开发的一款专业、强大的企业数据库监控管理系统,企业通过Lepus可以对数据库的实时健康和各种性能指标进行全方位的监控。目前已经支持MySQL、Oracle、MongoDB、Redis数据库的全面监控. Lepus可以在数据库出现故障或者潜在性能问题时,根据用户设置及时将数据库的异常进行报警通知到数据库管理员进行处理和优化,帮助企业解决数据库性能监控问题,及时发现性能和瓶颈,避免由数据库潜在问题造成的直接经济损失。Lepus能够查看各种实时性能状态指标,并且对监控性能数据进行统计分析,从运维者到决策者多个层面的视角,查看相关报表。帮助决策者对未来数据库容量进行更好的规划,从而降低了硬件成本。 Lepus是一个真正的能够帮助企业解决数据库监控和运维的问题,主要可以帮企业解决如下问题: 1.帮助企业解决数据库性能监控问题,及时发现性能和瓶颈,避免由数据库潜在问题造成的直接经济损失  "Lepus数据库企业监控系统"是针对互联网企业开发的一款专业、强大的企业数据库监控管理系统,企业通过Lepus可以对数据库的实时健康和各种性能指标进行全方位的监控。目前已经支持MySQL、Oracle、MongoDB、Redis数据库的全面监控. Lepus可以在数据库出现数据库无法连通、会话数、进程数、等待事件、同步、延时等故障或者潜在性能问题时,根据用户设置阀值及时将数据库的异常进行报警通知到数据库管理员进行处理和优化,避免因数据库故障或性能瓶颈造成直接的经济损失。 2.帮助企业运维领导决策者更好的统筹数据库容量资源,降低企业硬件成本 Lepus采用列式方式呈现监控指标,适合中大型互联网公司大规模数据库的监控管理。通过WEB界面,企业运维人员和决策者可以进行任意几台主机或所有主机监控的数据库性能、系统资源使用情况对比,并提供数据库性能资源按不同维度排序功能,以及系统资源Top信息图表,帮助决策者更好的发现哪些数据库性能开销大,哪些比较空闲,从运维者到决策者多个层面的视角,查看相关报表。帮助决策者对未来数据库容量进行更好的规划,从而降低了硬件成本。 3.帮助企业DBA运维人员解决重复和枯燥的工作,提高运维人员工作效率 面对几时台甚至上百台数据库服务器,如果没有统一的数据库的基础信息,将会使数据库运维管理变的无序,如果想了解数据库的基本健康状态信息,则需要登录数据库或登录服务器。重复的工作容易使人疲惫和厌倦。Lepus提供数据库的基础数据指标采集,比如数据库版本,运行时间,基本健康状态,核心配置参数等基础数据,有了这些基础数据,无需登录机器即可通过系统集中查询,减少了DBA运维人员的重复性工作和枯燥的敲命令工作。 4.慢查询推送和AWR性能报告,降低数据库运维人员和开发人员的沟通成本 Lepus拥有创新的MySQL慢查询分析,TopSQL自动推送,基于时间范围的MySQL AWR性能报告功能。打破了数据库管理人员被动的联系开发人员解决SQL问题的常规低效率现象。Lepus会定时收集影响数据库稳定性的慢SQL,并根据计划任务定时推送查询次数最多,查询时间最长的TopSQL给相关开发人员,开发人员也可以通过有限的权限自主查询任意时间内的慢SQL语句。也可以通过在线AWR性能报告功能查询数据库历史任意时间的数据库性能问题和瓶颈。降低数据库运维人员和开发人员的沟通成本。
监控MongoDB性能,可以借助Prometheus进行监控。在构建监控体系时,我们可以考虑以下几个方面: 1. 集群节点状态监控:通过监控kubelet服务获取MongoDB集群中各节点的基本运行状态。 2. 集群节点资源用量监控:通过在集群中部署Node Exporter来采集MongoDB节点的资源使用情况。 3. 节点中运行的容器监控:通过kubelet内置的cAdvisor来获取各节点中所有容器的运行状态和资源使用情况。 4. 如果在集群中部署的应用程序本身内置了对Prometheus的监控支持,还可以从该应用程序的Pod实例中获取其内部运行状态监控指标。 5. 对于MongoDB自身的组件也可以进行监控,例如MongoDB的数据库服务、复制集、分片集群等。 为了解决Prometheus的性能瓶颈,可以利用Prometheus联邦集群的特性将不同类型的采集任务划分到不同的Prometheus子服务中,实现功能分区。 对于MongoDB性能监控,可以使用Prometheus的四种数据类型之一的Counter类型,用于统计MongoDB的请求数量。 另外,为了更好地分析MongoDB性能问题,可以使用Histogram和Summary类型的监控指标。通过分组统计请求延迟的范围,我们可以快速分析系统慢的原因,并解决长尾问题。例如,可以统计延迟在0-10ms之间的请求数量和延迟在10-20ms之间的请求数量,以便更好地了解性能瓶颈所在。 综上所述,使用Prometheus对MongoDB进行性能监控可以帮助我们了解MongoDB运行状态、资源使用情况以及解决性能问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Prometheus介绍](https://blog.csdn.net/cp3_zyh/article/details/124019043)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值