Linux系统运维需要掌握的知识与故障处理流程(适用于大部分日常工作)(已更新)

故障处理思路:

1.故障问题都会出现报错信息,一般报错信息中会显示问题所在,对于处理故障具有很大帮助;

2.日志文件:故障报错时,日志文件会出现“error”等字样,也是可以帮助定位故障问题所在;

3.查看CPU和负载、硬盘使用率等,都可以作为日常处理故障的手段,如:top 命令等

小知识:

buffer(写缓冲):是用于存放(缓冲)要输出到disk(块设备)的数据的;
cache(读缓存):是缓存从disk上读出的数据。buffer和cache都是为了提高IO性能,并由OS来管理;
swap:linux内核读写虚拟内存是以 “页” 为单位操作的,把内存转移到硬盘交换空间(SWAP)和从交换空间读取到内存 的时候都是按页来读写的;
Paging:内存和SWAP的这种交换过程称为页面交换(Paging)

进程分为三种状态,一种是阻塞的进程blocked process,一种是可运行的进程runnable process,另外就是正在运行的进程running process。当进程阻塞时,进程会等待I/O设备的数据或者系统调用。

NTP:用于校准时间,直接yum,然后ntpdate cn.pool.ntp.org,(cn.pool.ntp.org是中国的NTP服务器),可以设置定时任务,每隔一段时间进行校准。

Linux系统无响应问题分析:
Linux服务器在长时间运行后,可能会出现无响应死机现象。在系统死机后,屏幕一般会输出故障信息或者卡死,键盘失去响应,这种情况的常见处理办法就是重启系统,不过在重启前,要重点关注一下屏幕的输出信息,因为其提示的可能是引起死机的主要原因,对解决问题是有很大帮助的。

另一个方法,就是通过串口直连线连接客户机和服务器,将服务器的出错详细信息发送到客户机上。

引起服务器死机的原因有很多,主要有两个方面:软件问题和硬件问题。
1、系统硬件问题主要是由SCSI卡、主板、RAID卡、HBA卡、网卡、硬盘等硬件设备导致。在这种情况下需要定位硬件故障细节,通过更换硬件来解决问题。
2、网络问题导致的,此时就需要检查网络设备、网络参数等方面查找和解决问题。
 3、软件问题主要是系统内核bug、应用软件bug、驱动程序bug等。在这种情况下就需要从升级内核、修复程序bug、更新驱动程序等方面来解决问题。
4、系统参数设置不当,可以通过恢复系统到默认状态,关闭防火墙等方面来解决问题。

小知识:

HTTP:超文本传输协议,是基于TCP/IP协议传递数据的;文件、结果等等。

DHCP:动态主机设置协议,是用于局域网中动态分配IP地址的工具,请求主机发送消息给DHCP服务器的68端口,DHCP服务器回应应答消息给请求主机的67号端口。

TFTP:简单文件传输协议,是TCP/IP协议族中的一个用来在客户机与服务器之间进行简单文件传输的协议,提供不复杂、开销不大的文件传输服务。端口号为69。

SYSLINUX:是一个功能强大的引导加载程序,而且兼容各种介质。它的作用是简化首次安装Linux的时间,并建立启动盘;安装简单,一旦安装syslinux好之后,sysLinux启动盘就可以引导各种基于DOS的工具,以及MS-DOS/Windows或者任何其它操作系统。

KICKSTART:是一个定义了Linux安装过程的配置文件, 其工作原理是预先把原本需要手工填写的参数保存成一个ks.cfg 文件,当安装过程中出现需要填写参数情况下,安装程序会先找ks.cfg文件,找到合适的参数则自动执行,找不到合适的参数则需要手动填写。

上述工具软件的作用:(大规模装机)

PXE作用: 引导装机。
Kickstart作用: 将安装系统的过程中通过ks.cfg文件中的配置信息,实现自动安装配置达到无人值守自动安装。
TFTP: 支持PXE 引导的网卡中从tftp服务器端下载pxelinux.0文件、vmlinuz、initrd.img等内核引导文件。
DHCP:PXE引导过程中获首先获取IP地址,并提供pxelinux.0文件位置。
HTTP: 用于下载ks.cfg以及系统镜像文。

(上述工具使用)实现简略流程:

1)客户端(没有装系统的计算机)通过在局域网内寻找DHCP服务器
2)DHCP服务器回应,发送IP地址给该客户端并且告诉该客户端下一步寻找哪一个服务器,也就是TFTP
3)客户端向TFTP要BootLoader
4)TFTP服务器将pxelinux.0相关文件交给客户端
5)客户端向TFTP服务器要内核文件和initrd.img
6)TFTP将这两个文件路径告诉客户端
7)客户端通过TFTP提供的路径向http服务要ks.cfg(自应答文件)
8)客户端根据ks.cfg文件中指定的安装路径寻找安装所需要的文件

Linux系统安全加固几种方式方法

系统账户信息默认存放在/etc/passwd中,可以手动查询用户信息,可以设置除root外的其它账号禁止登录,

passwd -l 用户名 锁定用户登录,如果量很大,可以编写脚本完成。

除了账号信息,还有密码,密码的过期设定时间默认存在于 /etc/login.defs 中,

######

PASS_MAX_DAYS   *      # 新建用户密码最长使用天数
PASS_MIN_DAYS    *      # 新建用户密码最短使用天数
PASS_MIN_LEN       *     # 新建用户密码到期提示天数
PASS_WARN_AGE  *     # 最小密码长度

密码的复杂程度设备默认存在于/etc/pam.d/system-auth文件中,

#####
#%PAM-1.0
# This file is auto-generated.
# User changes will be destroyed the next time authconfig is run.
 
password    required pam_cracklib.so try_first_pass retry=3 dcredit=-1 lcredit=-1 ucredit=-1 ocredit=-1 minlen=10

##密码需要数字、大小写字母,特殊字符,长度>=10

修改一些默认服务的默认端口,比如SSH、http等等,ssh登录端口更改为高端口号,防止被扫描攻击。

禁用root用户登录,使用sudo授权进行命令操作,禁止root用户登录主机。

限制Umask的值,代表文件权限,默认设备为0777,任何文件新建或上传后没有读写权限,木马文件也是一样,这样可以保证安全访问使用;也可以锁定文件。

为日志文件增加不可删除属性,加固一下

[root@localhost ~]# cd /var/log/
[root@localhost log]# chattr +a dmesg cron lastlog messages secure wtmp 
[root@localhost log]# lsattr secure 
-----a---------- secure
[root@localhost log]# rm -fr secure 
rm: cannot remove ‘secure’: Operation not permitted

防火墙规则最小化,禁用所有端口访问,只放行必要的端口,HTTP,SSH等

如果有需要开启SElinux,会禁用一些服务端口,重新启用则需要进行修改放行;

大致总结:

1、设置有效的密码策略,防止攻击者破解出密码
2、应启用登录失败处理功能,可采取结束会话、限制非法登录次数和自动退出等措施。
3、删除多余的、过期的帐户,避免共享帐户的存在。
4、开启审核策略,若日后系统出现故障、安全事故则可以查看系统日志文件,排除故障、追查入侵者的信息等。
5、保护审计记录,避免受到未预期的删除、修改或覆盖等。
6、关闭与系统业务无关或不必要的服务,减小系统被黑客被攻击、渗透的风险。
7、操作系统遵循最小安装的原则,仅安装需要的组件和应用程序,并通过设置升级服务器等方式8、保持系统补丁及时得到更新。
9、对接入服务器的IP、方式等进行限制,可以阻止非法入侵。
10、设置登录超时时间,释放系统资源,也提高服务器的安全性
 

  • 19
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
处理网络运维故障时,可以参考以下故障处理案例: 1. NFS故障,造成系统CPU使用率低而负载极高。 解决思路:首先关闭网络,与网络环境隔离,观察故障是否消失,如故障消失,则为网络问题引起的故障。可以尝试重新配置NFS服务,检查NFS服务器和客户端的配置是否正确,并确保网络连接正常。 2. Nginx出现大量的closed keepalive connection,而其他节点主机没有出现。 解决思路:首先关闭网络,与网络环境隔离,观察故障是否消失,如故障消失,则为网络问题引起的故障。可以检查Nginx的配置文件,确认是否有错误的配置项。还可以检查网络连接是否稳定,尝试重启Nginx服务。 3. 服务器假死 解决思路:首先关闭网络,与网络环境隔离,观察故障是否消失,如故障消失,则为网络问题引起的故障。可以尝试重启服务器,检查系统日志以查看是否有异常情况。还可以检查服务器的硬件状态,例如CPU、内存是否正常工作需要注意的是,在处理网络运维故障时,应首先关闭网络,与网络环境隔离,观察故障是否消失,以确定是否是网络问题引起的故障。然后可以根据具体的故障情况,针对性地进行故障排查和修复。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [服务器运维之常见故障排查法](https://blog.csdn.net/weixin_45736539/article/details/123134570)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [运维故障案例](https://blog.csdn.net/m0_73695023/article/details/131409557)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

好好学技术oH

你的鼓励是一起学习的动力何阶梯

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值