大型网站及应用排错思路及过程
大型网站排错(适用于网站访问不到,应用服务访问不到,设备宕机等等)
物理机
硬件级--系统级--应用服务级-网络级-被攻击或者中毒
服务器硬件问题
1.网线故障--丢包--失联--网卡协商速率故障 ==>更换网线 ethtool 网卡协商速率1000mb/s-100mb/s
speed
怎么样判断一个服务器是否丢包??
登陆服务器后ping网关。(1k-5K次)
ping -t/c 10000 -i 0.01 x.x.x.1
ping的结果怎么计算出来的?
原理是这样的:利用网络上机器IP地址的唯一性,给目标IP地址发送一个数据包,再要求对方返回一个同样大小的数据包来确定两台网络机器是否连接相通,时延是多少?
网线线序:
橙白 橙 绿白 蓝 蓝白 绿 棕白 棕 568B
1 2 3 4 5 6 7 8
数据传输 1 2 3 6 其他用来供电或者备用
测线仪
2.板载网卡故障---->更换主板(几率很小)
万兆网卡---外接的网卡---> 安装驱动(找卖网卡的厂家要驱动文档)--->重启机器
使用光纤+模块
(怎么插光纤?)
无光对有光,有光对无光
万兆网卡协商速率是 10000m/s
intel原厂万兆网卡只识别原厂intel万兆光模块,不识别oem(白牌)(a货) oem
如果上完万兆的机器不通,怎么处理?
1 首先现场ip a 看看网卡起没起来,有没有IP地址
2 登陆交换机去看看VLAN划没划错
3 让现场再次确认光纤是不是插错了, 是不是物理链路有问题。是不是插错口了(服务器或者交换机)
4 换个模块试试,有时候模块故障率非常高
网卡怎么关闭和开启
ifdown ens33 ifup ens33
先系统在硬件的方式去排查
3.CPU (机器里有几个CPU) 1个CPU 机器宕机(关机) 2个CPU 报错
CPU1 ERROR OR CPU2 ERROR
lscpu
怎么安装cpu
CPU的右上角有一个三角形缺口,和服务器的CPU槽位相对应,防止CPU放错方向。
4 .服务器品牌 DELL R710 IBM hp INSPUR GD LENOVO [h3c]华三 了解基本配置-->几U的?几块磁盘?磁盘容量?磁盘转速?10k rpm
内存容量?多少根? 4G 8根 32G
广联达
5. 内存报错MEM-(DIMM_A1) ERROR DIMM_B1 ERROR
free -m
有一台机器开不开机了,无法判断是cpu还是内存还是主板问题还是电源问题?
机器起不来了,怎么判断是什么硬件故障?
最小化硬件启动,单内存 单cpu 起来后去导出数据,或者查看应用。
查看进程>文件中,远程拷贝给别的机器
压缩数据目录拷贝给远程机器。
插电后听声音,风扇转有声意味电源没事。 插1根内存和1个cpu,最小化启动机器
内存如果出现故障会导致什么现象:异常重启。
无缘无故自动重启-->
crontab---->rc.local--->开机启动的脚本--->看看内存
计划任务 开机启动
现象2:卡在F1界面要按F1才能过去,进入系统。please press F1 to contain the system
解决方法 更换内存 或者插拔内存 (同型号 同容量)
PDU(简称插板)---给机柜上面的服务器及网络设备供电
6 电源问题-->1单电 2双电 -->冗余工作方式 不同型号及品牌的服务器电源冗余工作方式是不一样的
第一种
电源1-->工作 电源1-->工作
第二种
电源2--> 工作 电源2-->备用 1坏2顶上
电源分为750W 500W 570W 650W 单位:瓦特 根据旧的型号去换。不能随便换
判断电源故障:
1外观 灯(绿)正常 (红)(不亮)故障
声音
2管理卡日志 PSU1 erro(错误) PSU2 erro(错误)(电源)
3 开机自检报错
故障灯--(红) 灭
psu1 error psu2 error
主板故障
现象:开机黑屏 开机死机
首先冷启动
冷启动 暴力拔电
热启动 ctrl alt delete
更换主板,不影响数据(这些操作由机房值守或者厂家来做)
前提:a有值守 b服务器在保修期内(专业点:在保)
raid1+ssdraid5
RAID卡故障(阵列卡)
现象: 无法显示硬盘 (所有)及不能CTRL+R进入RAID卡
解决方法更换 raid卡 或者首先插拔RAID卡
硬盘背板故障
现象:硬盘灯全部不亮
解决方法:更换硬盘背板及SAS线
如单个硬盘灯不亮或者为红 为硬盘故障。
风扇
现象 不转了
-------------------------------------------------
系统问题
----->系统级别参数优化(系统优化)(内核参数调优) --->
uname -r
vi /etc/sysctl.conf
账号问题(sudo)
配置文件110或者101
vi /etc/sudoers
gaosang ALL=(ALL) NOPASSWD: ALL
普通用户
sudo su -
升级内核失败(内核调参)(内核可以选择)
内核调参是系统优化里的东西
升级内核,不要删除其他内核,防止内核升级失败,可以用其他内核启动机器。
升级或者安装新的内核以后,不要删除旧的内核
网卡配置文件问题
ping ip
ip a
解决方法 查看及修改和重启网络 /etc/sysconfig/-----
ifcfg-eth0-----ifcfg-eth33
这是经过修改的。如果直接使用centos镜像安装网卡名字是
ifcfg-eth0-----ifcfg-eth33 ens33 ens38(虚拟机)
是否有IP地址
eth0 eth1 eth2
网络层VLAN,系统(IP),本地都没有问题,但是就是ping不通服务器。
a 95% 机器没有路由了,需要添加路由
b 防火墙过滤规则,不允许你的IP地址ping 服务器
添加路由2种方法
1种 临时添加(重启失效)
2种 永久添加(永久生效)
route -n
添加静态路由:临时添加路由
# route add -net 10.0.0.0 netmask 255.0.0.0 gw 10.18.45.1
route add -net 172.0.0.0 netmask 255.255.0.0 gw 10.18.45.1
route add -net 192.0.0.0 netmask 255.255.255.0 gw 10.18.45.1
删除静态路由:
# route del -net 10.10.40.0 netmask 255.255.255.0 gw 10.18.45.1
永久添加请将上述写在/etc/rc.local
路由 route -n 添加默认路由或者静态路由(重启就没了)
防火墙 (默认关闭) selinux(disabled)
1 临时添加及删除及查看本机路由
2 永久添加路由