实战派来了!聊聊百度智能运维的“前世今生” | 技术沙龙

640?wx_fmt=gif

近年来,随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。同时,为了满足大流量、用户高质量体验和用户分布地域广的互联网应用场景,大型分布式系统的部署方式也成为了高效运维的必然之选。如何提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

  • 在大规模数据中心中,不知该如何有效面对变更带来的风险;

  • 当出现故障时,没有有效的监控工具能够及时发出告警,也没有故障止损阶段的自愈方案;

  • 对于海量的运维数据总是束手无策,不知道哪些是重要的内容和有价值的信息;

  • 在面对每日千亿级流量调度的情况下,不知如何快速提升平台稳定性和研发效率;

如果你也遇到以上问题

或者也对类似问题做过思考

那么属于你的福利来啦

79期百度技术沙龙

百度智能运维的技术演进之路

汇集百度智能云技术大咖

基于以上问题和你进行探讨和分享

讲师介绍

演讲主题:高可用性系统的架构与运维实践

640?wx_fmt=png

讲师简介:王栋,百度智能云主任架构师,清华大学计算机系本科和硕士、北京大学计算机系博士。曾就职于Bell Labs和Google。2015年加入百度,主要负责百度云架构设计和 AIOps在百度系统运维方面的落地工作。

演讲概要:确保大型分布式复杂软件系统的可用性历来是一个严峻的技术挑战,具体而言,这种挑战一方面来自于系统的体系架构设计,另一方面来自于线上系统的高效运维,二者相辅相成。本次分享将从百度运维的技术演进切入,介绍百度如何从最初的手工操作为主发展到如今领先业界的AIOps实际落地;然后以变更管理作为一个典型的例子,阐述百度在实践DevOps方面的一些体会;最后,以百度统一前端接入(Baidu Front End, BFE)、数据库以及Redis为例,介绍保证线上系统高可用的实战经验。

演讲主题:百度AIOps实践

640?wx_fmt=png

讲师简介:哈晶晶,百度智能云架构师,智能监控团队业务技术负责人,智能故障自愈方向技术负责人。2011年4月硕士毕业后入职百度,负责运维平台研发工作,先后负责服务管理、资源管理、变更管理、故障管理的业务分析和架构设计,在基础运维平台产品和智能运维解决方案层面积累了大量的经验。主要研究支持百度搜索、广告、FEED流等核心业务故障发现、定位和自愈解决方案,推进AIOps应用落地。

演讲概要:百度运维经历了脚本&工具、基础运维平台、开放运维平台阶段,在2014年开始智能化运维的探索,并且围绕可用性、成本和效率方向的运维目标,在诸多运维场景落地。本次分享将以百度故障处理场景为例,介绍百度故障发现的异常检测、故障通告的智能报警合并、故障诊断阶段的多维度分析,故障止损阶段的自愈方案等,以及百度AIOps研发框架如何支持诸多运维场景的快速落地。

演讲主题:大规模数据中心变更风险应对之道

640?wx_fmt=png

讲师简介:杨涛,百度智能云资深运维工程师,百度智能云运维平台负责人。2012年加入百度,先后负责过百度网页库存储、百度容器操作系统Matrix等业务。目前负责百度公有云和私有云运维平台的架构和研发工作,主要关注变更管理、容量管理、故障管理等方向。

演讲概要:在大规模数据中心中,对生产环境的变更来自于各个方面,有机器类操作(重装、重启、初始化等)、机器环境变更(BIOS、内核、内核参数、基础库等)、服务变更(程序、配置、数据发布)、服务容量变更、服务操作等等。这些变更无论是自动化的还是手动的,任何一次变更都会带来服务稳定性风险。本次演讲会从具体的案例出发,介绍百度应对变更风险的防御机制演变及最佳实践。

演讲主题:百度统一前端平台技术面面观

640?wx_fmt=png

讲师简介:章淼,百度智能云架构师。2004年清华大学计算机系博士毕业。1997年至 2006年在清华大学从事互联网协议和网络基础架构的研发。2006年至2012年在多家公司从事用户产品的研发工作。2012年加入百度,一直从事百度统一前端(BFE:Baidu Front End)的研发。热心代码和研发质量的提升,是百度Python和Golang两个编程语言规范委员会的成员;热心教育,在百度内组织“代码的艺术训练营”,传播正确的软件工程理念。

演讲概要:网络接入服务是用户和后台服务间的桥梁,对服务质量影响巨大。历时6年打造的百度统一前端(BFE:Baidu Front End)平台,目前已经覆盖百度的大部分流量,每日转发数千亿请求,并为百度的各产品线提供流量调度、防攻击、数据统计等附加功能。本次演讲将介绍BFE研发中包括网络协议、网络安全、高性能系统在内的多个技术方向,以及提升平台稳定性和研发效率的研发方法优化。

演讲主题:百度数据库运维及Redis异地多活实践

640?wx_fmt=png

讲师简介:余杰,百度智能云资深数据库运维专家,负责百度数据库平台的管理和维护工作,热衷于大规模数据库的架构设计、性能优化以及自动化运维平台的设计。

演讲概要:主要讲述百度DBA如何提供专业的MySQL服务,分别从高质量的部署变更、准入优化、全方位的监控预案、灾备恢复等4个维度呈现百度DBA提供高可靠、高性能 MySQL服务的技术体系,并且对这4个技术方向核心技术内容做详解,全面呈现百度 MySQL服务生命周期内服务运维保障。

640?wx_fmt=png

讲师简介:廖洪流,百度智能云资深Redis研发工程师,负责百度Redis平台的管理和维护工作,热衷于分布式缓存的架构设计、性能优化以及高可用服务的设计。

演讲概要:本次分享将通过介绍百度Redis的发展历史,了解百度在使用分布式缓存系统时会遇到的问题以及对应架构的演化过程。具体包括百度在最开始使用的传统分布式缓存架构,到后来为了满足O2O业务发展而提出的近地域多活架构;由于AI/feed业务的快速发展,业务在追求高可用、高性能、多地域数据同步的需求下引申出的异地多活架构。此外, 还会介绍如何做到无缝数据迁移百度Redis。

本次分享你可以

  • 了解百度智能运维的技术演进,获得百度在AIOps、DevOps上的实战经验。

  • 学习百度在系统架构设计和变更、监控、故障处理和性能管理等贯穿线上系统生命周期的运维层面上,如何保证系统的高可用。

  • 掌握应对变更风险的防御机制演变及最佳方法。

  • 从高质量的部署变更、准入优化、全方位的监控预案、灾备恢复等4个维度学习百度 DBA提供高可靠、高性能MySQL服务的技术体系

  • 获得如何做到无缝数据迁移百度Redis的妙招。

活动时间与地点

地点:海淀区中关村创业大街车库咖啡

活动时间:2018年6月23日(周六)13:30-17:40

免费报名入口

Get新技能的好地方,精彩内容不容错过哦,快动动小手行动吧!

扫描图片二维码或者点击“阅读原文”即可免费报名沙龙分享会哦。

640?wx_fmt=jpeg

阅读更多

没有更多推荐了,返回首页