运维工程师必须知道的基础有哪些

运维工程师必须知道的基础有哪些?(详解)

目录
Linux运行是什么?(What)
工作中运维应用场景?(Where)
运维的发展过程–为什么需要运维?(Why)
运维分类与工作职责
运维工程师使用的运维平台和工具
Linux运行是什么?(What)
1.什么是linux运维?

运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常。

在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控、应用架构、存储 于一身的技术。运维分类:

运维开发:是给应用运维开发运维工具和运维平台的
应用运维:是给业务上线、维护和做故障排除的,用开发运维开发出来的工具给业务上线、维护、做故障排查
系统运维:是给应用运维提供业务上的基础设施,比如:系统、网络、监控、硬件等等
数据库运维: 负责数据存储方案设计、数据库表设计、索引设计和SQL优化
安全运维: 进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理
2,运维的职责

保证服务的稳定运行;
考虑服务的可扩展性;
从系统的稳定性和可运维性的角度,提出开发需求;
定位系统的问题,甚至可以直接修正bug;
对突然出现的问题做到快速响应和处理;
工作中运维应用场景?(Where)
1. Devops交付环常识普及

我们把开发交付划分为: 计划 --> 编码 --> 构建 --> 测试 --> 版本 --> 部署 --> 运维 --> 监控 的一个闭环
DevOps的目标是通过建立并不断完善持续交付的流水线
运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期

2.产品发布前
注:这个阶段运维工程师的职责是参与设计并把关运维准入,主要包括下面类容

产品的业务熟悉;
产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,
资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;
资源就位,将申请的服务器及基础环境/域名准备就位。
3,产品发布过程中

监控:
对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;
输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;
故障处理:
对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。

这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。

容量管理:
包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。
5.产品性能/成本优化

产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。

而如何用最**合理的资源(如机器、带宽等)**支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。

6.产品下线

发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况
这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用
运维的发展过程–为什么需要运维?(Why)

1.手工管理阶段

业务规模( 几十台机器)

业务流量不大,服务器数量相对较少,系统复杂度不高。

对于日常的业务管理操作,大家更多的是逐台登录服务器进行手工操作,属于各自为战。

每个人都有自己的操作方式,缺少必要的操作标准、流程机制,比如业务目录环境都是各式各样的。

职责

早期的运维团队在人员较少的情况下,主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作。

几乎很少涉及线上服务的变更、监控、管理等工作。

这个时候的运维团队更多的属于基础建设的角色,提供一个简单、可用的网络环境和系统环境即可。

2.工具批量操作阶段

业务规模( 几百台机器)
随着服务器规模、系统复杂度的增加,全人工的操作方式已经不能满足业务的快速发展需要。
因此,运维人员逐渐开始使用批量化的操作工具,针对不同操作类型出现了不同的脚本程序。
此时,虽然效率提升了一部分,但很快又遇到了瓶颈,操作的质量并没有太多的提升。
我们开始建立大量的流程规范,比如复查机制,先上线一台服务器观察10分钟后再继续后面的操作,一次升级完成后至少要观察20分钟等。
这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而降低了工作效率。
工作职责
这个时候的运维团队还会承担一些服务器监控的工作,同时会负责LVS、Nginx等与业务逻辑无关的4/7层运维工作。
这个时候服务变更更多的是借助saltstack、ansible批量管理工具工操作。
监控的焦点更多的在服务器状态和资源使用情况上,对服务应用状态的监控几乎很少,监控更多的使用各种开源系统如Nagios、Cacti、openfalcon、等。
3.平台管理阶段

业务规模( 几千台机器)
在这个阶段,我们决定开始建设运维平台,通过平台承载标准、流程,进而解放人力和提高质量。

这个时候对服务的变更动作进行了抽象,形成了操作方法、服务目录环境、服务运行方式等统一的标准。

通过平台来约束操作流程,如上面提到的上线一台服务器观察10分钟,程序的启停接口必须包括启动、停止、重载等。

在平台中强制设定暂停检查点,在第一台服务器操作完成后,需要运维人员填写相应的检查项,然后才可以继续执行后续的部署动作。

工作职责
由于业务规模和复杂度的持续增加,运维团队会逐渐划分为应用运维和系统运维两大块。
应用运维开始接手线上业务,逐步开展服务监控梳理、数据备份以及服务变更的工作。
同时,为了应对每天大量的服务变更,我们也开始编写各类运维工具,针对某些特定的服务能够很方便的批量变更。
随着业务规模的增大,基础设施由于容量规划不足或抵御风险能力较弱导致的故障也越来越多,
运维人员开始将更多的精力投入到多数据中心容灾、预案管理的方向上。
4.系统自调度阶段

工作环境(上万台机器)
更大规模的服务数量、更复杂的服务关联关系、各个运维平台的林立,原有的将批量操作转化成平台操作的方式已经不再适合。
需要对服务变更进行更高一层的抽象,将每一台服务器抽象成一个容器,由调度系统根据资源使用情况,将服务调度、部署到合适的服务器上。
自动化完成与周边各个运维系统的联动,比如监控系统、日志系统、备份系统等。
通过自调度系统,根据服务运行情况动态伸缩容量,能够自动化处理常见的服务故障。
运维人员的工作也会前置到产品设计阶段,协助研发人员改造服务使其可以接入到自调度系统中。
工作职责
业务规模达到一定程度后,开源的监控系统在性能和功能方面,已经无法满足业务需求;
大量的服务变更、复杂的服务关系,以前靠人工记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求;
在安全方面也出现了各种大大小小的事件,迫使我们投入更多的精力在安全防御上。
逐渐的,运维团队形成之前提到的5个大的工作分类,每个分类都需要有专精的人才。
这个时候系统运维更专注于基础设施的建设和运维,提供稳定、高效的网络环境,交付服务器等资源给应用运维工程师。
应用运维更专注于服务运行状态和效率,数据库运维属于应用运维工作的细化,更专注于数据库领域的自动化、性能优化和安全防御。
运维研发和运维安全提供各类平台、工具,进一步提升运维工程师的工作效率,使业务服务运行得更加稳定、高效和安全。
运维分类与工作职责

1.系统运维(SYS):

负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);

负责资产管理,服务器选型、交付和维修,网络建设、LVS负载均衡和SNAT建设

2.应用运维(SRE)

应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作
工作职责如下:设计评审、服务管理、资源管理、例行检查、预案管理、数据备份。
业务运维工作细则
监控线上的服务质量
响应异常/处理突发故障
在线发布/升级产品
和相应产品线的研发和测试协调处理产品问题
3.运维开发

是给应用运维开发运维工具和运维平台的
主要平台:工单系统、CMDB、监控系统、ELK日志系统、CI/CD、LDAP、FAQ、培训系统、OpenStack平台等
4.数据库运维(DBA):

数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化,

对数据库进行变更、监控、备份、高可用设计等工作,详细的工作内容如下

设计评审、容量规划、数据备份与灾备、数据库监控、数据库安全、数据库高可用和性能优化

5.运维安全(SEC)

运维安全负责网络、系统和业务等方面的安全加固工作

进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理

工作内容如下:安全制度建立、安全培训、风险评估、安全建设、安全合规、应急响应。

运维工程师使用的运维平台和工具
1.运维工程师使用的运维平台和工具

Web服务器:apache、tomcat、nginx

负载均衡:keepalive、lvs、haproxy、nginx

监控:prometheus、zabbix、openfalcon、nagios、cacti

自动部署:ansible、saltstack、sshpt

配置管理:puppet

备份工具:rsync、wget

分布式数据库:hbase、redis、MongoDB

容器:docker、k8s、docker-compose、swarm

安全:kerberos、selinux、acl、iptables

虚拟化:openstack、xen、kvm

问题追查:netstat、top、tcpdump、last

2.运维工程师要掌握的技能

扎实的计算机基础知识,包括计算机系统架构,操作系统,网络技术等;

通用应用方面需要了解操作系统、网络、安全,存储,CDN,DB等,知道其相关原理;

编程能力,小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力;

数据分析能力:能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向;

丰富的系统知识,包括系统工具、典型系统架构、常见的平台选型等;

3.运维工程师的软素质要求

时间管理能力,特别是碎片化时间的处理能力;

沉稳的心态,面对紧急情况时需要处变不惊;

沟通能力、团队协作,运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;

工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;

心细,运维工程师是最高线上权限者,需要谨慎心细;

主动性、执行力,能够主动学习国际国内的运维技术,并引入到工作中,提高运维的质量和效率;

<think>嗯,用户想了解运维工程师的八股文,也就是面试中常见的问题和知识点。首先,我需要确定运维工程师的核心领域,比如基础概念、网络、操作系统、数据库、中间件、监控、自动化、云计算、安全、故障处理等。然后分门别类整理常见问题,确保覆盖全面。 基础部分可能包括运维职责、DevOps、CI/CD的区别,还有Linux常用命令,比如进程管理、日志查看、权限设置。网络方面,TCP/IP模型、三次握手、四次挥手,以及HTTP和HTTPS的区别都是常问的。还有防火墙配置,比如iptables和firewalld,可能需要解释它们的区别和使用场景。 操作系统方面,用户可能想知道进程和线程的区别,内存管理,比如虚拟内存和Swap空间,以及文件系统相关的问题,比如inode的作用。Shell脚本也是重点,比如如何编写备份脚本或处理文本数据。 数据库部分,SQL优化、备份恢复、主从复制和分库分表策略都是常见问题。中间件如Nginx和Tomcat的配置优化,负载均衡算法也需要涵盖。 监控工具如Zabbix、Prometheus,以及日志分析工具ELK栈,可能需要解释它们的原理和使用方法。自动化方面,Ansible、SaltStack、Jenkins的用法,还有容器技术如Docker和Kubernetes的基础知识,包括核心组件和网络模型。 云计算部分,AWS、阿里云等常见服务的运维操作,比如ECS、VPC、S3,以及IaC工具Terraform。安全方面,防火墙策略、漏洞扫描、DDoS防护措施,以及HTTPS的配置步骤。 故障处理需要实际案例,比如服务器崩溃或数据库响应慢的诊断流程。软技能如沟通和压力应对也可能被问到。 在整理这些内容时,要确保每个知识点简明扼要,重点突出。可能还需要注意最近的技术趋势,比如云原生和微服务,以及运维工程师向SRE角色的转变。另外,要提醒用户结合项目经验准备,用实际例子展示能力。最后,保持结构清晰,分点说明,方便用户理解和复习。</think>以下为运维工程师面试常见知识点("八股文")的体系化整理,内容覆盖基础概念与高频问题,供参考学习: --- ### 一、基础概念篇 1. **运维核心职责** - 保障系统稳定性(SLA 99.9%/99.99%)、自动化部署、监控告警、容量规划、故障恢复等 - DevOps核心思想:开发与运维协同,CI/CD流水线实现快速交付 2. **Linux基础** - 常用命令: ```bash ps aux | grep nginx # 查看进程 netstat -tunlp # 查看端口占用 lsof -i :8080 # 定位端口进程 ``` - 日志分析:`grep "ERROR" /var/log/app.log | awk '{print $3}' | sort | uniq -c` - 权限管理:`chmod 755 script.sh`(rwx权限计算) --- ### 二、网络与协议篇 1. **TCP/IP模型** - 三次握手过程:SYN → SYN-ACK → ACK - 四次挥手:FIN → ACK → FIN → ACK(TIME_WAIT状态作用) - **HTTP vs HTTPS**:SSL/TLS加密层、端口80 vs 443、证书机制 2. **防火墙与安全组** - iptables四表五链:`iptables -A INPUT -p tcp --dport 22 -j ACCEPT` - 云平台安全组配置(如AWS Security Group、阿里云ECS安全组) --- ### 三、操作系统篇 1. **进程与线程** - 进程间通信方式:管道、信号、共享内存、Socket - 内存管理:虚拟内存机制、Swap空间设置原则 2. **文件系统** - inode结构:存储文件元数据(权限、时间戳、数据块指针) - 磁盘I/O优化:`noatime`挂载选项、RAID级别选择(RAID 0/1/5/10) --- ### 四、数据库篇 1. **MySQL高频问题** - 索引优化:B+树结构、最左前缀原则、覆盖索引 - 主从复制原理:binlog格式(ROW/STATEMENT)、半同步复制 - 慢查询分析:`EXPLAIN`执行计划、`slow_query_log`配置 2. **Redis核心知识点** - 持久化机制:RDB快照 vs AOF日志 - 缓存穿透/雪崩解决方案:布隆过滤器、随机过期时间 --- ### 五、监控与自动化篇 1. **监控体系** - 分层监控:硬件层(Zabbix)、应用层(Prometheus+Granfana)、日志层(ELK) - 关键指标:CPU利用率、磁盘IOPS、网络丢包率、JVM GC时间 2. **自动化工具** - Ansible核心概念:Inventory文件、Playbook YAML语法 - 示例任务:批量部署Nginx ```yaml - hosts: webservers tasks: - name: Install nginx apt: name=nginx state=present ``` --- ### 六、云计算与容器篇 1. **Docker核心** - 镜像分层原理、Dockerfile最佳实践(多阶段构建) - 网络模式:bridge/host/none的区别 2. **Kubernetes架构** - 核心组件:API Server、etcd、kubelet、Controller Manager - Service类型:ClusterIP、NodePort、LoadBalancer --- ### 七、故障排查思路 1. **通用方法论** - 定位流程:监控指标 → 日志分析 → 复现验证 → 修复验证 - 经典案例: - CPU飙高:`top → pidstat -p <PID> 1 3 → jstack` - 磁盘满:`df -h → du -sh * → lsof | grep deleted` --- ### 八、趋势与进阶方向 1. **云原生技术栈** - Service Mesh(Istio)、Serverless架构(AWS Lambda) 2. **SRE(站点可靠性工程)** - 错误预算(Error Budget)、SLI/SLO定义 --- **建议学习路径**: 1. 夯实Linux/网络基础 → 2. 掌握1-2种监控/自动化工具 → 3. 深入理解至少一个公有云平台 → 4. 参与实际故障演练 注:面试时需结合项目经验,用`STAR法则`(情境-任务-行动-结果)描述实际问题解决过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux运维老纪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值