SREcon会议预告 | 分享智能运维,共研行业趋势

640?wx_fmt=gif

2018年6月6日-8日,国际顶级运维专家会议SREcon18 Asia / Australia即将在新加坡举行,百度共有6位运维领域的专家将在大会上分享他们在智能运维实践运维技术趋势的见解体会,给予工程师在这方向上的启发与思考,相信能给大家带来更加开阔的视野和思路!

SREcon

SREcon是由计算机科学领域的知名机构USENIX主办,Google、Facebook等硅谷互联网巨头联合成立的运维专家会议,每年定期举行。参与会议的嘉宾来自于Google,Facebook,Baidu,Twitter, LinkedIn等国际知名互联网公司的顶级专家,讨论系统和软件的交叉性创造性工程相关的议题,一般包含大规模网站可用性提升、资源优化及性能改善等,SREcon上的讨论往往会成为未来很长一段时间运维领域的风向标。

演讲预告

640?wx_fmt=png

张柳青  百度智能云资深研发工程师

640?wx_fmt=png  

互联网连通性故障检测与自动流量调度



演讲者简介

负责业务监控、网络监控及智能故障自愈方向架构设计与研发,推动AIOps的实践与落地。

演讲摘要

当我们谈到高可用性保障和用户体验保障时,通常只考虑服务自身的稳定性,网络(互联网)的连通性异常总是被忽视,大部分人会认为网络(互联网)通常是比较稳定的。

但通过实际观察发现,网络(互联网)连通性故障出现的非常频繁,每周有3-5个IDC级别出口故障,以及5-10个分省运营商链路故障。

频繁的故障带来巨大的用户体验损失,那么自动的故障发现和处理就非常重要。所以我们构建了网络连通性监控系统自动流量调度系统

在这次演讲中,我们将介绍如何实现和使用上述两个系统来处理互联网连通性故障

640?wx_fmt=png

王博  百度智能云资深研发工程师

640?wx_fmt=png  

基于线性回归的PV监控



演讲者简介

负责智能异常检测、报警收敛、智能故障诊断等相关工作,目前是异常检测系统的技术负责人。

演讲摘要

百度Noah智能监控系统目前已经覆盖了多种监控场景,如流量、响应时间等,这些监控可以发现多种类型故障,如外网故障、系统故障等,本次演讲我们重点介绍流量场景。流量监控算法面临诸多难点,如不同角色的工程师对流量上涨或下跌的关注也不尽一致,业务运维工程师更关心流量的异常突降,而安全工程师更多关注由攻击引起的流量突升,但目前流行的移动平均、ARMA和Holt-Winters等算法都没能得到准确的基准值,从而难以准确判断当前发生了上涨还是下跌,又如流量的局部波动范围与时间上下文相关,忙时波动小、闲时波动较大,现有的算法都需要针对不同时间设置不同阈值,这给阈值设置带来了巨大挑战。

本次演讲我们将介绍百度在流量监控场景中遇到的实际问题,并介绍百度流量智能监控算法,该算法可以准确的预测当前流量的基准值,并使用上下文无关的阈值进行异常判断,简化了阈值设置过程,最后,我们会展示在百度的实际使用效果。

640?wx_fmt=png

姚睿尧  百度智能云资深研发工程师

640?wx_fmt=png  

一个关于十亿量级时间序列的故事



演讲者简介

负责百度运维数据仓库和运维知识库的设计和研发,对大规模分布式存储系统的可用性和性能调优有丰富的实践经验。

演讲摘要

百度Noah监控支撑了全百度的业务和集群,它对业务的可靠性至关重要。迄今为止,Noah监控所采集的监控指标规模已经增涨到了十亿量级,我们需要一个可靠且高效的时间序列数据库(TSDB)来存储这些监控指标,它不仅能够支持实时的数据写入,与此同时还需要处理各种各样的查询请求,查询的场景包括数据聚合、报警和可视化报表等,且不同的场景对数据粒度也有不同的要求。

我们的TSDB基于HBase+Redis实现。为了达到高效的数据写入能力,除了利用HBase本身的强大写入能力外,我们在整个写数据通路上使用异步批量模式来处理数据。在提升读性能方面,我们对HBase表结构做了针对性的设计,并引入了多层次降采样机制。基于Redis的内存数据库支撑了大量实时、高频的短查询,我们在其之上应用了高效的时序数据压缩算法,极大降低了内存的消耗。

本次演讲中我们会探究大规模时间序列数据处理的技术挑战,同时向大家介绍我们在百度构建TSDB的实践和经验。

640?wx_fmt=png

薛萍萍  百度资深工程师

演讲者简介

致力于提高发布效率和稳定性,负责构建百度分级发布机制,以避免产品发布引入的故障,同时,提高百度发布效率,加速业务产品迭代。

640?wx_fmt=png

陈宇  百度智能云资深数据架构师

640?wx_fmt=png  

在百度如何让发布更安全



演讲者简介

主要负责服务稳定性问题,包括异常报警和故障诊断。主要研究兴趣包括分布式系统、共识协议、搜索排序和查询推荐等。

演讲摘要

在百度,超过一半的故障是由于变更导致的,所以有助于提高服务稳定性的分级发布势在必行,在分级发布的每个阶段,我们在相邻阶段之间加入检查策略,如果判断为异常,则部署终止甚至回滚。

在分级发布检查机制里,研发工程师可以在每个阶段明确检查规则,但他们往往并不擅长这一点,SRE也可以增加关于稳定性指标的规则,但是往往又可能导致误检查的发生,经常拖慢发布效率。故我们转向基于机器学习的方法,为了获得满意的结果,算法必须学习每个指标的“正常”变化,并定量检测当前变化以确定是否存在故障。

在这次演讲中,我们将展示几个真实案例来展示我们在实践分级发布自动检查机制中遇到的困难,以及机器学习算法的原理。

640?wx_fmt=png

曹轩  百度搜索运维团队技术负责人

640?wx_fmt=png  

使用多维度数据分析高效解决服务故障



演讲者简介

长期从事搜索产品运维工作,积累了大量故障分析定位、大规模故障组织协调的经验,在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向,都有深入的见解和丰富的实战经验。

演讲摘要

SRE最重要的工作之一是解决导致KPI恶化的问题,如PV、广告收入、点击率下降等。

许多问题只影响一部分流量,如果Oncall工程师了解受影响部分的特征,如流量源区域、浏览器类型或介入网络标准等,则可以加速诊断。因此,我们在每个用户请求上标记一组Tag。当发生故障时,我们寻找故障请求中的共同点,这会产生大量标记数据,会增加搜索范围,从而导致故障排除效率低下,因此自动分析势在必行。

在这次演讲中,将展示我们在百度的工作,应用机器学习技术来推荐与失败最相关的Tag。该方法采用无监督异常检测基于熵的降维技术,可以自动推荐关键数据特征进行故障排除。所提出的方法已经由数百个真实案例验证,与传统方法相比,显著加快了故障排除过程

点击文末“阅读原文”即可查看SREcon18大会的详细信息。

640?wx_fmt=jpeg

640?wx_fmt=png

↓↓↓ 点击"阅读原文" 【了解更多精彩内容】 

阅读更多

没有更多推荐了,返回首页