发现
早上收到了一封预警邮件
查看监控,cpu使用率过高,这种情况百分之95都是代码问题。实例规格升级是不用升级的。
定位问题
db.currentOp()
查询正在执行的命令
查找secs_running 运行时间长的语句。
发现有一个skip XXX limit 10 的语句在执行。
解决问题
问询得知是新上的跑批功能,
在数据量比较大的表里,skip过大会极大消耗数据库资源
skip是通过一条一条计算定位到目标数据位置的。
于是使用db.killOp() kill调对应执行。
发现不仅昨天的跑批数据再跑,前天的也在运行。
关闭tomcat,重启(这时要注意,如果tomcat里的应用有在整运行的线程,默认关闭tomcat不会停止改线程)。停止对应线程,CPU占用情况恢复。
优化方案
分页查询
不能用传统的skip limit来做,使用where(sql)或find条件(nosql)定位目标数据
在准确性要求不是很高的分页里,通过增加查询条件(时间、自增id等)达到定位到目标数据的功能。
文档数据量很大时的查询
通过控制返回字段减少读取耗时
无论是sql还是nosql都需要这样做。