2016年了,写个年度工作总结吧,这个总结主要侧重于技术管理,至于其他方面,可能会分篇在写一个BLOG,算是2015年对自己的一个交代,同时也希望能够对同行有点借鉴意义,


运维的二个核心点

保障业务系统稳定、高效、持续运行;

降低运维中心的成本(运维中心是成本中心,而不是价值中心,是许多企业高层的共识)


1、围绕稳定、高效、持续3个关键词,运维团队就有很多工作要做:

稳定:

(1)IT基础设施运维:网络日常巡检,vlan划分、ip分配,配置变更,问题解决,补丁升级等;

              服务器上架、系统推送、资源入池、日常巡检、系统扩容、问题解决,配置变更,补丁升级;

(2)业务运维:版本发布、日常巡检、系统扩容、新系统上线、问题解决、参数配置、性能调整;

(3)数据库运维:新库上线、SQL发布、导数、扩容、迁移、日常维护(统计信息、重组、备份、巡检)、升级、问题诊断;

(4)监控是否全部覆盖到

(5)运维的安全问题,ip访问的限制,内部日志的审计,密码的管理,root的登录;

高效:

(1)业务系统架构能够支撑高并发、大流量的业务场景(大促销,购物节),到应用系统的架构、中间件的选型、参数的调整;

(2)后台支撑的网络带宽是否够用,这里涉及到网络是否合理地分区、流量是否按照预定的线路在走、业务数据、监控数据、备份数据、管理数据是否分网在走;

(3)服务器系硬件性能是否是瓶颈,操作系统设置是否最优,如I/O调度算法,swap,最大内存段等kernel设置,max openfile,max processes等资源参数;

(4)RAID设置,如卡的cache设置,raid级别设置等;

(5)数据库性能是否有瓶颈,数据、日志的分离,应用的读、写分离等,数据库分库、分表等设置,数据库缓存设置等;

(6)数据库与应用直接是否有cache中间件,如redis,memcache等做缓存;

(7)监控的处理速度能否跟得上高并发、大流量的业务场景等;

持续:

(1)应用系统是否集群配置(web server,app server);

(2)数据库缓存中间件redis,memcache是否有主从配置等;

(3)数据库是否有主从配置;

(4)应用、数据库cache、数据库的主从配置是否有单点风险(如果是云平台,主、从是否在同一物理机,如果是非云平台,主、从是否在同一交换机;

(5)存储是否是raid10配置;

(6)交换机是否冗余,服务器网口是否是聚合模式;

对于金融类企业,金融业务线是需要建立灾备中心的:

(1)应用系统是否能够切换到灾备中心;

(2)数据是否能够转移到灾备中心;

(3)RTO,RPO是多少,等等;


2、降低运维中心的成本

(1)软件成本。现在的互联网公司,选择开源软件是个大趋势,所以,在软件选型上,开源软件能够满足相应的业务需求,并且该开源软件的生态圈子还不错,就可以大胆的选择;比如mysql已经成为了互联网公司数据库选型实事上的标准,Redis也是绝大多数数据库缓存的选择;

(2)硬件成本。

   小型机的时代已经一去不复返了,x86平台的服务器大量运用到互联网公司和IDC,而且如果是大客户,大批量的采购,还可以向硬件供应商如浪潮、联想、富士通、dell等厂商提出自己的定制需求,来最大化满足自身需求的同时,降低采购成本。

   网络硬件设备的软件化。网络设备,特别是防火墙、负载均衡设备,硬件厂商的报价都不是一笔小数目,如果可以,选择开源的软件实现相应的功能,是大多数IDC的选择;

(3)人力成本。

   上面所述的软件成本,硬件成本,归根到底,在与要有运维人员去专研,或者外部引入懂这个技术的人员或团队。让运维人员去专研,意味着要从现有的运维人员中抽调,势必异味着人力资源紧张。外部引入,就意味着比较高额的人工工资,这都是不得不考虑的问题。

   人员流动带来的隐形成本。互联网公司的人员流动相比国企、事业单位还是很高的。人员离职带来的技术成果的缺位,是管理者需要考虑的问题。同时,新入职人员也需要时间来适应公司的工作环境和业务,还需要mentor带教,这些都是成本。因此,做好技术成果的固话,“铁打的技术,流水的员工”应该是管理者的目标,这个目标有点难,但要尽量做好。


没有精心去组织语言,只是随性而写,想表达的意思应该都表达出来了,愿与圈子的朋友交流!