服务器问题 排查思路

一.尽可能搞清楚问题的前因后果

        1.故障是什么时候发现的?

        2.故障的表现是什么?无响应?报错?

        3.最后一次对整个平台进行更新的内容是什么(代码、服务器等)

二.当前有谁在,做过什么操作

        1.  w/who   

        2. last

        3. history

三.现在运行的进程有什么

        1. pstree -a              //以树状图显示进程间的关系

        2. ps -aux

        3. netstat  -n -o -a |grep 443 |wc -l     查看各端口连接数 

            netstat  -n -o -a |grep 80 |wc -l

        4.netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'          查看http的进程数

四.监听的网络服务

        1. netstat -nalp       

        2.netstat -ntlp

        3.netstat -nulp

        -n或--numeric 直接使用IP地址,而不通过域名服务器。

        -a或--all 显示所有连线中的Socket。

        -l或--listening 显示监控中的服务器的Socket。

        -p或--programs 显示正在使用Socket的程序识别码和程序名称。

        -t或--tcp 显示TCP传输协议的连线状况。

        -u或--udp 显示UDP传输协议的连线状况。

五.  内存   CPU  磁盘空间

        1.内存

                (1) free -m 

                第一行 :            内存总数         已使用内存数         空闲内存数      废弃内存数         缓存内存数             缓存内存数

                第二行:             - buffers/cache:  已使用内存数 (指的第一行中的used – buffers – cached)

                                          + buffers/cache:  空闲内存数(指的第一行中的free + buffers + cached)       

                第三行: 指交换分区, Linux的Swap类似于Windows的虚拟内存,就是把一部分硬盘空间虚拟成内存使用,用来解决内存容量不足的问题。如果有使用到Swap,说明服务器该升级配置了。

        2.CPU

                (1)uptime

         系统时间            系统运行时间         已登录用户的数量       系统的平均负载量:     过去一分钟    五分钟     十五分钟

         注:有一种说法,当load avarage <3 系统良好,大于5 则有严重的性能问题

                (2)top

                第一行同uptime

                第二行为进程的信息

                       总进程数        正在运行的进程数        睡眠进程数            停止进程数          僵尸进程数

                第三行为CPU信息   

                       us: 用户空间占用CPU百分比       

                       sy  内核空间占用CPU百分比

                       ni  用户进程空间内改变过优先级的进程占用CPU百分比

                       id  空闲CPU百分比           //比较重要

                       wa  等待输入输出的CPU时间百分比       

                第四、五行为内存信息 

                Mem  :  8169876  k  total  ,  7686472  k  used  ,  483404  k  free  ,  35272  k  buffers

                              物理内存总量       使用的物理内存总量    空闲内存总量         用作内核缓存的内存量
                Swap  :  4096532  k  total  ,  160  k  used  ,  4096372  k  free  ,  2477532  k  cached

                              交换分区总量        使用的交换区总量       空闲交换区总量      缓冲的交换区总量

        3.磁盘空间

                   (1) df   -h       显示目前在Linux系统上的文件系统的磁盘使用情况统计

                                                                                                                   

         文件系统的名称         总内存      使用中的内存     可使用的内存      使用的内存占总内存的百分比      挂载点

                   (2) du  -sh   *     查看当前文件夹下所有目录大小

 

六.io性能

 

        1.iotop         

                                                        读取速度                 写入速度

       2. dstat --top-mem --top-io --top-cpu           查看当前占用内存、io、CPU最高的进程信息

                              

 

 

                 

                                             

 

                

       

        

        

排查Linux服务器丢包问题思路如下: 1. 检查网络连接稳定性:首先确认网络连接是否稳定,可以通过ping命令或者其他网络测试工具检查服务器与其他设备之间的连通性。如果存在网络抖动或者丢包现象,可能是网络设备或者链路的问题。 2. 检查网络配置:检查服务器的网络配置,包括IP地址、子网掩码、网关等是否正确设置。确保服务器与网络设备的配置一致。 3. 检查网络设备:检查服务器所连接的交换机、路由器或防火墙等网络设备的状态和配置。查看设备的日志,确认是否有异常或者错误信息。 4. 检查网络负载:检查服务器的网络负载情况,包括带宽使用率、流量峰值等。如果网络负载过高,可能导致丢包现象。可以使用工具如iftop、nload等进行实时监测。 5. 检查防火墙设置:确认服务器上的防火墙设置是否影响了网络连接。检查防火墙规则,确保允许必要的网络流量通过。 6. 检查硬件设备:如果以上步骤未能解决问题,可能是与服务器硬件相关的问题。可以检查网卡、网线、连接插座等硬件设备是否正常工作。 7. 分析网络流量:使用抓包工具如tcpdump、Wireshark等来捕获服务器的网络流量,并进行分析。观察是否有异常的网络包或者重传现象。 8. 更新和优化系统:确保服务器的操作系统和网络相关软件包是最新的版本,并进行必要的优化调整,如调整网络缓冲区大小、启用流控等。 如果以上步骤都未能解决问题,可能需要进一步深入的网络故障排除,可能需要借助专业的网络工程师或系统管理员进行协助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值