系统运维日常工作有哪些,应该具备哪些技能

一、日常工作内容:

  1. 看监控、网站流量、CDN流量,看邮件有没有普通业务监控报警,看有家中有没有其他需要做的工作
  2. 处理报警,查看报警的原因,和开发一起解决,并且尽量找出避免再次发生的方法,例如添加一些定时清理脚本
  3. 处理发布,基本都是自动化,但是总有发布不成功或者需要回滚的时候,这时候就需要手工介入,找到原因,并跟开发一起讨论最后是否撤销还是重上
  4. 日常一起能够自动化的工作尽量找到自动化的方法
  5. 配合开发搭建测试环境,线上环境,上线代码,以及日常开个权限
  6. 定期机房巡检
  7. 灾备演练计划
  8. 运维流程的设定与标准化
  9. 运维知识库文档的建立
  10. 新技术的学习与研究

二、运维应该具备哪些技能:

  1. 了解运维技术的分类:赵班长写的运维知识体系:https://www.unixhot.com/page/ops
  2. 熟悉常见Linux系统(以CentOS/Redhat为主)和故障处理
  3. 熟练shell脚本,熟悉php、perl、python、ruby等至少一种开发语言
  4. 熟悉常见应用服务(如:Nginx、Tomcat、HAProxy、Redis、RabbitMQ等)的配置维护及优化(比如NGINX代理,负载均衡)
  5. 熟悉MySQL数据库的部署配置和优化(读写分析,负载均衡,分布式数据库)
  6. 熟悉任意一种自动化管理工具的使用(如:SaltStack、Puppet或Ansible等)
  7. 熟悉任意一种常见监控系统的使用(如:Zabbix、Nagions、Ganglia)
  8. 了解基本的网络知识
  9. 对常见对云服务有一定了解,有过阿里云、亚马逊等云主机维护经验者优先
  10. 熟悉各种虚拟化技术,比如 KVM、XEN等。并有在虚拟化平台上面维护或开发的经验

原文链接: https://blog.51cto.com/molewan/1936482

好的,我会尽力回答你关于hadoop系统运维的问题。 Hadoop是一个分布式计算框架,它的运维工作需要考虑到很多方面,包括硬件、网络、软件等等。以下是一些常见的Hadoop系统运维问题及其解决方法: 1. 如何监控Hadoop集群的健康状况? 答:可以使用Hadoop自带的Metrics系统来监控集群的健康状况。Metrics系统会收集各个组件的性能指标,并将其汇总到一个统一的界面上,方便管理员查看。此外,还可以使用第三方监控工具,如Ganglia、Nagios等。 2. 如何优化Hadoop集群的性能? 答:可以从以下几个方面入手进行优化: - 调整Hadoop配置参数,如调整数据块大小、副本数等; - 优化硬件配置,如增加内存、CPU等; - 使用更快的网络设备,如升级网卡、使用InfiniBand等; - 使用更快的存储设备,如使用SSD代替HDD。 3. 如何备份Hadoop集群中的数据? 答:可以使用Hadoop自带的备份工具——DistCp来备份数据。DistCp可以将一个Hadoop集群中的数据复制到另一个Hadoop集群中,也可以将数据备份到本地磁盘或其他存储设备中。 4. 如何升级Hadoop集群? 答:升级Hadoop集群需要注意以下几点: - 仔细阅读官方文档,了解升级过程中需要注意的事项; - 在测试环境中进行升级测试,确保升级过程不会影响生产环境; - 逐个升级各个组件,确保每个组件都能够正常工作; - 在升级过程中备份数据,以防数据丢失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值