做为一个运维工程师,你必须掌握最基本的技能方能胜任这份工作,否则,是没有公司愿意接纳你,并继续培养你。
在安装系统时你更会去留心学习Linux的目录结构和作用,学会系统的安装方法和软件安装方式,对目录与文件的操作,呃,这些够基础吗?
学习Linux除了网上免费的视频教程之外,还是要多看书,多理解、思考,将你不会、不懂的做好笔记,好记性不如烂笔头。选择一本适合自己的书籍,有人说《Linux就该这么学》太扯、内容太简单,而我看着这本书却非常适合我自己,自己看其它书籍感觉看不懂,就扔那里不在愿意去看,适合自己的就是最好的书,只有入门了才能更好的往下面学习,合格的工程师更要学会自学。
Linux是一个多用户、多任务的操作系统,允许许多用户同时使用这个机器处理多个任务,必须管理好这些用户,即使初学Linux的小白也知道,可以通过网络让多人同时登录,而非使用机器上仅有的一个显示器、一个键盘和鼠标。比如 web服务器,是不是多用户?ftp服务器也是多用户。系统上可以开启远程登录ssh 或者telnet,这样几个人同时登录到该Linux系统上面。而需要管理好每个服务后面的帐号(用户), 可以安全、合理使用Linux系统资源。
做了运维才知道磁盘不是最值钱,而数据才是无价的。往往磁盘的空间是有大小的,根据业务需求合理分配磁盘变的非常重要,我单位的服务器swap为66G使用1G,而/var空间为36G总是磁盘满满,不得不频繁删除产生的日志,以空出空间,否则就会影响业务的正常使用。真是血的教训,有那么多空间却不能拿来使用,而业务必须24小时*365工作。经常查看磁盘利用率,查看目录大小和文件大小,为在用或者新扩容的磁盘做一个更好的规划。
经常有人问我的Linux系统怎么变的这么慢?重启也变慢了?重启慢可能是你加载的程序多,也可能磁盘有坏道,都需要你来检测,系统变慢,有可能运行的程序占满内存,或者CPU跑慢,网络利用率占满,工程师拿起你的命令top 、sar 、 netstat、ps等,查看是什么原因引起的。我们的RHEL 6.8服务器多次发现登录系统收、卡,有一个CPU使用率超100%,进程杀死就可以恢复,是一个木马,可是没过多久系统挂了,系统提示缴纳2个比特币,呃不多说了。
对于生产环境的系统,真是安全太重要了。比特币冰毒出现后,最后的解决方法是重新安装系统,但备份还是1个半月之前的数据,无论怎么样还是有备份,惨!!!因此发现安全问题,应首先停止相应的服务,查看日志,执行备份。Linux系统虽然说安全,但也不是百分百,及时打补丁,每天进行日常备份还是极为必要、重要,备份同时存放在多个地方,U盘、网络上面其它的计算机上。你做到了吗?不然总有哭的一天,悲剧啊,真是不知道该如何向用户解释。只有最新的数据备份,即使系统出现问题,也可以将业务恢复到最新的状态,降低最小的损失。安全和备份,我不是一个适合的管理员。。。
数以百万台的Linux服务器承载着互联网的繁荣,上网看新闻、视频的Web服务,下载文件的ftp服务,邮件的Sendmail,DNS域名的Bind域名解析服务,Squid代理服务,MariaDB数据库业务……,各种服务的使用方法,你都得会,是不是好可怜啊。我们内部需要搭建一个Linux的流媒体服务(视频服务器)和VPN业务,正在搭建中,其实都很好玩、有意思。当你做完这些,一定会感觉到非常有成就感的。
将用户管理、磁盘管理、网络服务合理使用和优化系统,将一些不需要的业务kill掉,Linux系统中通知运行着非常多的进程,但是CPU在统一时钟周期内只能运算一个指令,进程优先级决定了每个进程处理的先后顺序,优化进程的优先级,提升服务效率。系统定时任务crontab合理利用,提高工作效率。程序并不总是一直正常运行,出现的故障总会有一个log日志,查看日志分析故障原因,变的同样重要。比如遇到的各种恶意攻击行为,比较常见的便是HTTP flood,也称之为CC攻击。如何快速的定位到攻击,并迅速响应,成为运维人员必备的技能。查找、定位故障最快的方法就是登陆到相应的应用,查看相应的攻击来源、log日志及时进行处理。