2016年8月12日-13日,由CSDN重磅打造的互联网应用架构实战峰会、运维技术与实战峰会将在成都举行。
这是继SDCC 2016架构技术峰会(上海站,官网、图文直播、架构峰会PPT、数据库峰会PPT)和SDCC 2016架构技术峰会(深圳站,官网、图文直播、架构峰会PPT、数据库峰会PPT)圆满收官后的再一次相聚。本次峰会已邀请到来自于百度、阿里、腾讯、京东、华为、小米、乐视、美团、聚美优品、当当网、中国电信、云霁科技、亚信、YY互娱、ThoughtWorks等公司的技术骨干,与大家相聚在安逸舒适、充满麻辣诱惑的成都,在盛享技术大餐之余,还可以大饱一下口服。
离大会还有不足两个星期的时间,很荣幸会前采访到了本次峰会讲师、聚美优品网站运维及开发运维团队总负责人张川,请他分享了其在搭建运维架构、管理运维团队等多方面的实战经验。大会期间他也将带来《秒杀场景下的运维架构》主题演讲,通过实际案例,引导广大运维技术人员搭建秒杀场景下的,具有高可用性、可扩展性、灵活性、容错性的运维架构。
受访嘉宾介绍
聚美优品网站运维及开发运维团队总负责人张川
张川,聚美优品网站运维及开发运维团队总负责人。12年Linux桌面使用经验,7年Linux系统管理经验。在聚美优品四年的工作中,负责过运维自动化系统,监控系统及网站系统架构的优化与重构。主导设计并参与运维平台的建设,推动完成了整个运维团队从工具化,人工化到平台化的过渡。同时,在公司的多次大促活动中(瞬时并发达到平时几十倍),保证各业务线系统的稳定。
人物篇
CSDN:请首先介绍一下您的从业经历。您目前聚美优品主要负责什么工作。
张川:大家好,我2006年参加工作,期间做过IT,也做过开发,真正从事运维工作是在09年,当时觉得能管理几百台服务器是件很酷的事情,所以后来就一直从事这个职业。目前在聚美主要是负责网站运维及开发运维这两个团队,网站运维是为各业务线提供稳定的系统保障,同时也要负责基础服务的建设,开发运维则将大家的想法落地成为产品,提高工作效率。
CSDN:在您从业以来,职场上让您最有成就感的一件事是什么?您平时是如何保持技术、管理技能的不断提升?可介绍下,供后来者借鉴学习。
张川:每一次自我的突破都感到比较有成就感,当然,最有成就感的还是能在公司大促的时候,能做好最稳定的支持。
技术上主要还是发自自己的爱好,从读书那会就挺喜欢折腾Linux,鼓捣过各种发行版,各种桌面,工作后,又购买了不少专业书籍,利用工作之余,充电学习。管理上,从前期团队组建到后来发展到二十个人左右的团队,每个阶段都尝试过不同的管理方式,自己也随着团队在不断成长。
技术篇
CSDN:秒杀活动已成为电商企业促进业务发展的重要手段,这种活动具有怎样的特征?它对运维系统提出了怎样的要求?给运维技术人员带来了哪些挑战?
张川:秒杀及免费券活动,在活动开始的时候,访问量是呈直线式的飙升,瞬时的峰值访问量通常会是平时的好几十倍,而每一次请求都会透过运维的负载均衡系统到后端的各业务系统,对负载均衡系统的稳定性有着非常高的要求,所以在架构上要做到高可用性和可扩展性。在管理上要做到灵活性。对业务又要做到容错性。
CSDN:应对秒杀活动现场带来的流量及并发访问量的飙升,运维部门前期要做哪些技术上的准备?对运维系统有怎样的要求?
张川:首先是容量预估。先通过公司相关部门获取预期的销量数据,再根据以往的经验及公司推广的力度做相应的容量预判。然后是做风险预估及预案,对各核心系统及外部资源都要做好相应的风险控制。最后就是通过灾演去真实还原各种可能存在的风险,验证整个系统架构的可用性。
对于运维系统而言,一是要有非常直观的监控系统,便于在第一时间去定位问题、分析问题,二是要有非常灵活的自动化系统,便于在问题发生时进行快速处理。
CSDN:能否以某次大促活动为例,介绍下聚美优品运维团队是如何保证各业务线系统稳定提供服务的?
张川:大促前,我们通常会提前10天完成线上扩容,通过这个周期去观察新资源的稳定性, 接下来就要做真实的线上灾演,灾演包括各个系统的故障模拟和风险预案,故障模拟会真实地去模拟线上故障来验证整个运维系统架构的高可用性和容错性,同时在处理问题的过程中,通过灾演提高运维团队的响应速度以及和其他兄弟团队的配合度,以保证问题处理时的有序性。
风险预案主要就是要确保一切备用方案在启用时的正确性。只有真正的去验证过,在遇到问题时,大家才有信心去操作。
大促时的问题处理基本就是遵循灾演流程,让问题快速消化掉,同时随时要做好快速扩容的准备为各业务线系统提供稳定的保障。
CSDN:是否遇到过一些突发情况,当时是如何应急处理的?
张川:工作中,难免都会遇到这样的情况,在临时解决后,会对问题进行划分,如果是风险较高的问题,会放到之后的灾演中,如果是周期性的,会考虑做成平台功能,自动处理。 如果是必须人工化的,就会做成SOP。
管理篇
CSDN:加入聚美优品四年时间,您推动完成了整个运维团队从工具化,人工化到平台化的过渡,请简单谈谈这个推动过程,包括每个阶段采取的策略、所取得的成果,及值得分享的宝贵经验。
张川:最早加入聚美的时候,很多工作只有资深的工程师才能做,而为一旦操作失误,就会给公司造成非常大的损失。
一千多台机器从扩容,测试到上线,前前后后大概需要半个月时间,这时系统的稳定性主要还是依靠人,依靠工具去保证。所以对人的依赖特别严重。
针对这一问题,在2014年末启动了运维平台这个项目,前期主要包括三大核心系统,CMDB系统、监控系统、自动化系统。后续又开发了审计系统、统计系统等几个系统,并不断对现有系统进行优化。目前,运维的日常操作大都可通过平台完成,数千台服务器从批量扩容,测试到上线仅仅需要半天时间。将时间成本降低了30多倍。而且各业务线的运维通过平台就能进行自助的扩容及上下线,不再像当初过重的依赖个人,这样团队也可以做到多人互备,在推动各业务线接入后,完成了工具化,人工化到平台化的过渡。
CSDN:作为一个有着丰富运维经验的技术管理者,您在管理上有哪些体会心得?
张川:刚从技术转向管理时,前期还是习惯性的冲到第一线,去攻坚和解决技术难题,后来在意识到这个问题后,才将更多的精力投入在人才的培养上面,在保证质量及稳定的前提下,只做方向上的把控,让大家真正放手去做,通过这样的方式迫使大家在短时间都迅速的成长了起来。
另外平时也比较注重团队氛围的建设,鼓励创新,鼓励大家把自己真实想法提出来,通过讨论确定阶段性目标,让大家都真正参与进来,为共同的目标奋进,在这种轻松平等的环境下,团队的创造性及积极性也有所保证。
CSDN:面对云计算、大数据等新技术的兴起,运维模式发生了怎样的变化? 运维工程师该如何提升自己,以跟上技术发展潮流?
张川:新兴技术的兴起,确实会对传统的运维模式产生一些变化,所以对运维工程师的要求也会越来越高,运维工程师在工作中,会接触到不少的开源产品及新的技术,所以很多时候要站到一个更高的角度去看问题。而新技术的出现也会迫使大家去学习,去思考怎样将工作变得更有效率,更有价值。 这个过程本身就是一个学习和积累的过程,在知识的积累上,最好是能做到深广结合,切勿浅尝则止。
CSDN:在本次SDCC 2016(成都站)大会上分享的话题是?选择该话题的原因是什么?您希望通过该演讲,让参会者从中获得什么?
张川:这次分享的主题是秒杀场景下的运维架构,分享时会结合工作中几次改造的经历, 聊聊个人的一些心得和体会。运维架构本身不会涉及具体的业务,所以应该会比较有共性,而如何在大流量、高并发的情况下,做好这一环节的支撑,我个人希望能够起到一个抛砖引玉的作用,和大家互相探讨,共同进步。
8月5日24点前,SDCC 2016架构&运维峰会·成都站,仍处于八折优惠票价阶段,单场峰会(含餐)门票只需799元,5人以上团购或者购买两场峰会通票更有特惠,仅剩两天,预购从速。(票务详情链接)。
更多详细内容参见官网网址:SDCC数据库&架构峰会成都站,大会报名。