数据中心存储日常运维【13】,面试官突击一问

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Linux运维全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上运维知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注运维)
img

正文

在这里插入图片描述

  • 为了防止错误的操作影响到业务系统的稳定性及业务数据的安全性,系统通过级别和角色来控制用户的操作权限和范围。

  • 超级管理员:对存储设备有完全的控制权限,可以创建各级别的用户。

  • 管理员:对存储设备具有一定的控制权限,但不能进行用户管理、升级系统、修改系统时间、设备下电和重启设备等操作。

  • 只读用户:对存储设备只有访问权限。登录存储设备后,只读用户只能进行查询操作。

常用管理软件


在这里插入图片描述

  • 用户可通过DeviceManager和CLI管理界面对存储系统进行查询、设置、管理及维护。Toolkit和eService等可服务性管理工具能有效提升运维效率。运维管理软件能协助管理员对存储系统进行管理和监控。管理存储系统的常用软件如表所示。

  • DeviceManager是一款华为存储单设备管理软件,可以轻松便捷地配置、管理和维护存储设备。

  • CLI(Command Line Interface)提供命令行的方式对存储系统进行管理和维护,配置命令通过键盘输入,由程序编译执行。执行结果以文本或图形的方式回显在CLI操作界面。

  • Toolkit是所有IT工具统一的桌面端管理平台,包含了对IT设备进行部署、维护、升级等操作所需的各类工具,主要用于存储系统的日常维护。

  • eService是一款具备告警上报、文件上传和远程接入功能的专业服务工具。安装eService后,通过配置告警策略,eService可自动将与其相连接的存储设备告警上报到华为服务支持中心,华为维护人员根据告警严重程度和告警处理难度迅速制定处理措施,有效提高告警处理效率,节省客户时间和人力。

维护项目总览


在这里插入图片描述

首次维保项目


在这里插入图片描述

  • 通过维护项目及周期列表,系统管理员能够确认设备环境、设备状态的情况,如出现异常状态可及时进行处理和维护,确保存储系统持续健康运行。

  • 说明: 如未安装Toolkit或eService工具,请登录华为企业业务官网(http://enterprise.huawei.com),搜索并下载“OceanStor Toolkit”或“eService”软件包及操作指导文档,根据操作指导文档完成工具安装。

每日和每周定期维护项目


在这里插入图片描述

例行维护

===================================================================

工具巡检


在这里插入图片描述

  • 可以通过运维工具巡检设备的当前状态,实时掌握设备和网络的运行状况,了解设备和网络的运行趋势,提高维护人员对突发事件的处理效率。

  • 巡检存储设备:可以通过Toolkit或DeviceManager对存储设备进行巡检。

  • 巡检交换机:可以通过SmartKit工具巡检交换机,或者通过串口登录CLI用命令检查交换机的健康状态和运行状态。

  • 使用Toolkit进行巡检:当存储系统已安装“OceanStor Toolkit”巡检工具时,您可以通过巡检工具制定相应的巡检策略并对设备进行巡检,以便实时地了解设备的运行状态。

  • 使用DeviceManager进行巡检:通过检查告警列表中告警的详细信息和修复建议,可以帮助您修复存储系统的告警,保证设备和业务的正常运行。

  • 使用SmartKit巡检交换机:光纤交换机用于控制框间互连。您可以使用SmartKit工具检查交换机,了解交换机当前的运行状态。SmartKit工具下载请单击http://support.huawei.com/carrier/navi#col=software。

  • 使用CLI巡检交换机:当未安装巡检工具时,您可以通过CLI检查交换机的健康状态和运行状态。

人工巡检


在这里插入图片描述

  • 查看并处理告警:通过检查告警列表中告警的详细信息和修复建议,可以帮助您修复存储系统的告警,保证设备和业务的正常运行。

  • 检查存储系统运行环境:存储系统的运行环境满足业务需求是存储系统能够长期稳定运行的必要条件。

  • 检查指示灯:指示灯能够实时反映对应硬件设备的工作状态,通过检查指示灯可以帮助您迅速准确地判断各个硬件设备是否处于正常工作状态。

  • 检查设备运行状态:通过在存储系统侧以及DeviceManager管理界面上检查存储系统的运行状态,可以及时发现故障,保证存储系统正常运行。

  • 检查业务运行状态:通过在DeviceManager管理界面上检查业务运行状态,可以及时发现故障,避免业务中断造成数据丢失。

收集存储系统信息


在这里插入图片描述

  • 需要收集的信息项目主要包括基本信息、故障信息、存储设备信息、组网以及应用服务器信息。

  • 利用DeviceManager可以收集设备系统数据、告警和事件信息等。

  • 利用CLI可以备份或导入设备配置数据。

  • 利用Toolkit可以收集设备系统数据、档案信息、主机信息等。

日常管理

===================================================================

日常管理项目总览


在这里插入图片描述

  • 上下电存储设备:存储设备的上下电包括存储系统的上下电和接口模块的上下电。正确的上下电操作能防止因操作不当而导致设备损坏。

  • 管理存储系统访问权限:存储系统为确保存储设备和业务数据的安全,提供了安全策略调整、访问IP地址管控及用户管理三个维度的操作。

  • 管理告警通知:存储系统提供了远程发送告警通知的功能,本章介绍管理远程告警通知的方法,确保管理员及时接收和处理设备告警。

  • 监控存储系统性能:通过监控和查看性能监控数据了解系统的性能状态,并采用相关调优配置提高系统性能。

  • 管理存储系统基本信息:可以根据业务需求修改设备名称和系统时间等基本信息。

  • 管理License文件:License文件是使用各种增值特性的权限凭证,在设备的日常管理中,需要关注License文件是否可用,以避免License文件不可用导致无法使用增值特性功能。

  • 存储系统空间回收:当存储系统的全部或部分业务无需再运行,或者扩容的容量实际未使用时,可以对这部分空间进行回收,并利用这些空间运行新的业务,提高存储空间利用率。

  • 获取系统版本信息:用户可以通过DeviceManaer和CLI查询并了解当前存储系统的版本信息,以便在维护过程中能根据系统版本准确判断配套软件版本。同时,还可以通过CLI查询存储系统历史版本信息。

  • 对接存储设备与第三方网管:华为存储设备支持SNMP、SMI-S等协议接口,基于此用户可以通过第三方网管对存储设备进行管理。

  • 存储系统与应用服务器间的对接变更配置:存储系统与应用服务器间的对接部件变更后,需要在存储系统侧和应用服务器侧更改相关配置从而让应用服务器通过新的对接通道使用存储系统的存储空间。本章主要介绍更换HBA卡后的配置操作。

上下电存储设备


在这里插入图片描述

  • 重新启动存储系统,会导致存储系统上的业务中断,请谨慎操作。

  • 当机房发生火灾、烟雾、浸水等现象时,为保证您的人身安全或设备不受损坏,您需要对存储系统进行紧急下电。紧急下电存储系统,请按照用户机房安全用电准则进行断电。

  • 下电接口模块的前提条件为:该接口模块涉及的所有业务已经停止。

管理存储系统访问权限


在这里插入图片描述

  • 存储系统为确保存储设备和业务数据的安全,提供了安全策略调整、访问IP地址管控及用户管理三个维度的操作。

  • 配置安全策略:通过设置用户名策略和密码策略可以控制新创建帐号的用户名、密码的复杂度,设置登录策略可以锁定系统认定安全异常的帐号。

  • 配置可访问的IP地址:启用IP地址的安全性限制后,只有列表中的IP地址或地址段可以访问DeviceManager。只有超级管理员才能执行配置可访问的IP地址的操作。

  • 管理用户和访问权限:为了防止错误的操作影响到业务系统的稳定性及业务数据的安全性,存储系统定义了三种级别的用户,并对不同级别用户的操作权限进行了限制。

管理告警通知


在这里插入图片描述

  • 管理邮件通知:在日常运维过程中,业务的变化可能需要您及时变更备份SMTP服务器和接受告警通知邮箱地址。

  • 管理短信通知:在DeviceManager管理界面上可以根据需要设置告警通过短信发送到指定的手机上,使用户及时获知并处理存储系统出现的故障。

  • 管理Syslog通知:用户可以根据实际情况调整接收Syslog通知的服务器地址、接收通知的级别及类型。

  • 管理Trap告警通知:用户可以根据实际情况调整接收Trap告警通知的地址,存储设备的告警信息将被发送到服务器所指定的网管系统或存储设备。

  • 管理告警转储设置:设置告警转储功能后,当告警信息的容量达到系统设定的阈值时,将自动转储到指定的FTP服务器或SFTP服务器上。

  • 管理告警屏蔽:设置告警屏蔽后,您可以通过启用/禁用告警屏蔽来管理设备的告警信息不上报/上报至网管系统。

监控存储系统性能


在这里插入图片描述

  • 性能监控概述:性能是存储系统综合能力的体现。在业务运行阶段,通过对存储系统进行实时的性能监控、性能趋势分析等,使用户能够充分了解存储系统的性能表现。当出现性能问题时,可以根据性能监控数据进行分析定位。

  • 规划监控项:在不同业务场景下,用户需要关注并监控的性能指标。

  • 日常性能监控:在华为OceanStor V3存储上,可以通过存储系统管理软件DeviceManager和性能监控工具SystemReporter对存储系统进行日常性能监控,使用户充分了解存储系统的运行状态。

  • 性能问题定位:系统的性能是由系统中出现短板的环节决定的。在进行性能优化及问题定位时,首先需要明确系统当前所承载的业务场景,以及用户对性能的需求。其次以系统I/O路径为线索,确定性能问题所在模块。最后针对性能问题进行定位及调优处理。

  • 衡量存储系统性能的主要指标包括:

  • IOPS:I/O per second,即每秒钟可以处理的I/O个数,用来衡量存储系统的I/O处理能力。在数据库OLTP(Online Transaction Processing)业务、SPC-1认证等应用场景,通常以IOPS衡量系统的性能。

  • 带宽:每秒钟可以处理的数据量,常以MB/s或GB/s为单位,用于衡量存储系统的吞吐量。在数据库OLAP(Online Analytical Processing)业务、媒资业务、视频监控业务等应用场景,通常以带宽衡量系统性能。

  • 时延:发起I/O请求到I/O处理完成的时间间隔,常以毫秒(ms)为单位。常用指标包括平均响应时间和最大响应时间。例如,数据库OLTP业务一般时延要求10ms以下;VDI(Virtual Desktop Infrastructure)场景一般时延要求30ms以下;视频点播和视频监控的时延要求随码率的不同而不同。

  • 对于华为OceanStor V3存储系统,DeviceManager管理软件无需单独安装,用户通过维护终端的浏览器登录即可使用,通过DeviceManager用户可以查看存储系统实时性能监控数据、告警和功耗信息。相较于DeviceManager,SystemReporter需要安装后才能使用,但SystemReporter提供了更全面、更详细的性能监控和性能分析的信息。

管理存储系统基本信息


在这里插入图片描述

  • 设置系统时间:当存储系统的时间出现偏差时,需要修改存储系统时间,以便在出现告警时能根据告警日志准确地定位出设备告警产生的时间。通过该操作,可以同步客户端时间到设备、设置NTP自动同步或手动修改设备时间。

  • NTP(Network Time Protocol)是一种同步计算机系统时间的协议,它可以将计算机的系统时间同步到世界协调时UTC(Universal Time Coordinated)。支持NTP协议的服务器称为NTP服务器。

  • 通过同步客户端时间,可以将存储系统时间调整为和客户端时间一致。

  • 通过设置NTP自动同步,可以将NTP服务器作为外部时间源,定期、自动地同步到设备。

  • 修改设备名称和位置信息:通过该操作,可以设置设备的名称和设备所在地理位置。

管理License文件


为了做好运维面试路上的助攻手,特整理了上百道 【运维技术栈面试题集锦】 ,让你面试不慌心不跳,高薪offer怀里抱!

这次整理的面试题,小到shell、MySQL,大到K8s等云原生技术栈,不仅适合运维新人入行面试需要,还适用于想提升进阶跳槽加薪的运维朋友。

本份面试集锦涵盖了

  • 174 道运维工程师面试题
  • 128道k8s面试题
  • 108道shell脚本面试题
  • 200道Linux面试题
  • 51道docker面试题
  • 35道Jenkis面试题
  • 78道MongoDB面试题
  • 17道ansible面试题
  • 60道dubbo面试题
  • 53道kafka面试
  • 18道mysql面试题
  • 40道nginx面试题
  • 77道redis面试题
  • 28道zookeeper

总计 1000+ 道面试题, 内容 又全含金量又高

  • 174道运维工程师面试题

1、什么是运维?

2、在工作中,运维人员经常需要跟运营人员打交道,请问运营人员是做什么工作的?

3、现在给你三百台服务器,你怎么对他们进行管理?

4、简述raid0 raid1raid5二种工作模式的工作原理及特点

5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

6、Squid、Varinsh和Nginx有什么区别,工作中你怎么选择?

7、Tomcat和Resin有什么区别,工作中你怎么选择?

8、什么是中间件?什么是jdk?

9、讲述一下Tomcat8005、8009、8080三个端口的含义?

10、什么叫CDN?

11、什么叫网站灰度发布?

12、简述DNS进行域名解析的过程?

13、RabbitMQ是什么东西?

14、讲一下Keepalived的工作原理?

15、讲述一下LVS三种模式的工作过程?

16、mysql的innodb如何定位锁问题,mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注运维)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
bitMQ是什么东西?

14、讲一下Keepalived的工作原理?

15、讲述一下LVS三种模式的工作过程?

16、mysql的innodb如何定位锁问题,mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注运维)
[外链图片转存中…(img-fbdQGPZM-1713608770340)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值