服务器监控指标

最新推荐文章于 2024-08-02 13:09:47 发布

天行健自强不息的码农

最新推荐文章于 2024-08-02 13:09:47 发布

阅读量4.5k

点赞数 2

分类专栏：服务器

本文链接：https://blog.csdn.net/hongrisl/article/details/88845373

版权

本文介绍了服务器性能监控的重要性，并详细讲解了CPU、内存、磁盘、磁盘I/O、网络I/O和连接数等关键指标的监控方法及正常范围。通过对这些指标的监控，可以及时发现并解决服务器性能问题，确保服务的稳定运行。

摘要由CSDN通过智能技术生成

服务器监控
在搭建服务器时，除了部署webapp之外，还需要服务的异常信息与服务器性能指标进行监控，一旦有异常则通知管理员。
服务器使用Linux+Nginx-1.9.15+Tomcat7+Java搭建的。
编写脚本检测错误日志和服务器性能指标，一旦新生错误日志或者性能降低到设定的阈值时，则使用云监控将报警上传到云账号。

服务运行监控
错误日志包含以下三个方面：

nginx 错误信息监控(nginx.conf配置)
${NGINX_HOME}/logs/error.log
tomcat 错误信息监控(server.xml配置)
${TOMCAT_HOME}/logs/catalina.out
webapp错误信息监控(log4j)
${WEBAPP_HOME}/log/error
机器性能指标
一般都会使用linux系统的机器作为服务器，那么当在上面搭建服务时，需要对一些常用的性能指标进行监控，那么一般包含哪些指标呢？下面对其进行一些总结，欢迎补充…

指标
CPU(Load) CPU使用率/负载
Memory 内存
Disk 磁盘空间
Disk I/O 磁盘I/O
Network I/O 网络I/O
Connect Num 连接数
File Handle Num 文件句柄数
…
CPU
说明
机器的CPU占有率越高，说明机器处理越忙，运算型任务越多。一个任务可能不仅会有运算部分，还会有I/O(磁盘I/O与网络I/O)部分，当在处理I/O时，时间片未完其CPU也会释放，因此某个时间点的CPU占有率没有太大的意义，因此需要计算一段时间内的平均值，那么平均负载(Load Average)这个指标便能很好得对其进行表征。平均负载：它是根据一段时间内占有CPU的进程数目和等待CPU的进程数目计算出来的，其中等待CPU的进程不包括处于wait状态的进程，比如在等待I/O的进程，即指那些就绪状态的进程，运行只缺CPU这个资源。具体如何计算可以参见Linux内核代码，计算出一个数之后，然后除以CPU核数，结果：

<=3 则系统性能较好。
<=4 则系统性能可以，可以接收。
>5 则系统性能负载过重，可能会发生严重的问题，那么就需要扩容了，要么增加核，要么分布式集群。
查看命令

vmstat
vmstat n m
n表示每隔n秒采集一次，m表示一共采集多少次，如果m没有，那么会一直采集下去. 在终端键入 vmstat 5

结果各字段解释如下(这里只解释与CPU相关的)：
r：表示运行队列(就是说多少个进程真的分配到CPU)，当这个值超过了CPU数目，就会出现CPU瓶颈了。这个也和top的负载有关系，一般负载超过了3就比较高，超过了5就高，超过了10就不正常了，服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大，表示你的CPU很繁忙，一般会造成CPU使用率很高。
b：表示阻塞的进程，如在等待I/O请求。
in：每秒CPU的中断次数，包括时间中断。
cs：每秒上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目，例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CP