华为工程师SRECon Asia见闻：聚焦可靠性、资源优化及性能提升

最新推荐文章于 2024-09-23 20:20:29 发布

weixin_33860528

最新推荐文章于 2024-09-23 20:20:29 发布

阅读量849

点赞数

文章标签：运维人工智能大数据

原文链接：https://juejin.im/post/5acd6d0ff265da238d510e6f

版权

内容来源：2017年6月17日，华为软件架构师马博文在“西安活动 | 6月17日DevOps MeetUp”进行《SRECon Asia 2017见闻》演讲分享。IT 大咖说作为独家视频合作方，经主办方和讲者审阅授权发布。

阅读字数：1552 | 4分钟阅读

嘉宾演讲视频回顾及PPT：suo.im/4ViT57

摘要

软件系统40%-90%的开销是在维护上，对于大规模，关注软件可用性、可靠性和性能的公司，使用软件工程的方式去解决运维领域的问题就变成了一个选择。由此，Google发起了SRE(软件可靠性工程师)这样关注可靠性的组织，大名鼎鼎的Borg, Borgmon都出自SRE之手。除了Google之外，关注可靠性的其他大规模互联网公司，如Facebook、Ebay、Dropbox、Linkedin、百度、阿里等也采取类似的实践。SRECon则是这些公司分享SRE在技术、文化等方面实践的会议。最近我有幸参加在新加坡SRECon亚洲的会议，借此机会和大家分享下一些有趣的话题、idea以及我观察到的一些SRE领域的趋势。

什么是SRE

SRE就是网站可靠性工程师。SRE对技能的要求非常高，Goggle SRE中50%-60%是标准软件工程师，其余的要满足80%-90%软件工程师要求，并且了解unix细节以及网络。

SRE会用软件工程的思维去解决运维领域问题，负责可用性、性能、效率、监控、事务处理等。

SRE方法论

SRE主要关注的是研发工作，在保障服务SLA/SLO前提下最大化迭代速度。并涉及到监控系统、应急事件处理、变更管理、需求预测和容量规划、资源部署、以及效率和性能。

SRECon Asia

SRECon的主办方是USENIX，亚洲区会议主要赞助商是Baidu、Facebook和Linkedin。到会人数在250人左右。贡献话题的讲师都来自比较大的互联网公司，有Google、Facebook、Linkedin、PayPal、CloudFlare、Dropbox、Yahoo、Atlassian以及REA Group等，国内的公司有Baidu、Alibaba、Didi、QiNiu、Tingyun和Tsinghua。

监控与告警

如图所示，软件最基础的要求是监控，一切都是在监控的基础上运行，只有监控到发生了什么样的事故，才能做出相应的应急处理。事后总结问题，分析问题根源在哪里。对应的做出改进后进行测试，确认问题后修改代码然后进行发布。

Open-Falcon: Motivation

Zabbix：当管理的服务器超过2000台的时候，它的水平扩展会比较困难。

OpenTSDB：它的优点是写性能，水平扩展好，但是Query慢。

InfluxDB：国外一些小公司会使用InfluxDB。它的Query性能非常好，aggregator聚合强大，缺点是水平扩展难。

Open-Falcon: Performance

容易水平扩展，每分钟能处理百万级transaction (query/ judge/store/search)，轻松支持超过100,000主机。RRA机制，可以查询1年历史数据，100+ metric秒级响应时间，性能非常好。可以存储10年以上的metric历史数据。

问题

运维OpenStack，修复问题所需要的知识复杂，操作过多。这些知识很难Transfer。

解决思路

使用自然语言查询系统状态，好于CLI和Regex。

使用最基本的规则自动发现系统知识，构建一个知识图谱SOSG，将特定系统的查询转化为图遍历，异常检测发现隐藏的问题。

来自话题《Talking to an OpenStack Cluster in Plain English》by Xu Wei From Tsinghua

服务生命周期

双分布一致算法，Paxos算法；可靠的发射规模，发射检查表；在雅虎Hadoop基础架构服务器上无缝地管理变更，由Chef管理的45000个节点。

Reliable Launches at Scale

在上线前会检查架构、容量、可靠性、监控、自动化程度、增长趋势以及第三方（google内部）服务是否准备好，确认这些都没有问题后才会正式上线。

Managing Server Secrets at Scale with a Vaultless Password Manager

Key/CredenHals随着服务器增多而增多。

在配置管理工具中保存Secrets，启动配置管理工具需要key/pair etc，因为每个服务器密码不能相同导致无法scale key，Key RotaHon。

还有一种方式是保存在服务器上，服务器启动时生成。root password，磁盘加密比较困难，无状态时磁盘的服务器无法存储。

事故管理

事故管理的一些挑战

如何达成更短的MTTR；

很多事故的处理比较简单，如重启等，如何自动处理这些事故；

falsealarms如何减少；

报警如何给出正确信息，快速定位问题。

服务扩展

Small,Cheap, and EffecHveTesHng forProducHon Engineers.

Merou:A Decentralized, AuditedAuthorizaHon Service

Shameon facebook and dropbox.

容量规划/性能调优

Capacity Planning and Flow Control

容量估算: 单机压测；

模拟: ab/jmeter/gatling；

复制: 复制生产环境流量；

重定向；

负载均衡: weight。

Why Flow Control

队列堆积：服务器性能降低，响应时间增加，影响应用以及用户体验。

雪崩效应；

需要限制过载的流量。

And a Formula!

计算原则：

EntranceSize= volume * RT(response Hme)

Requests= constants * LOAD * RT

流量控制原则：系统超载则限制volume，负载正常则去掉限制。

使用动态阈值控制。

总结

SRECon参会人数不少，交流效果也比较好。

可以了解到不同的公司，比如Cloudfare，亚马逊的A9。

虽然很多话题看着很小，但是大部分的话题都有可学习的地方。

可以感受到的一个运维方面的趋势是数据流水线+大数据+机器学习+AI+Bot。

我今天的分享就到这里，谢谢大家！

weixin_33860528

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_33860528 CSDN认证博客专家 CSDN认证企业博客

码龄9年

167: 原创

-: 周排名

73万+: 总排名

125万+: 访问

: 等级

7355: 积分

4876: 粉丝

185: 获赞

17: 评论

1040: 收藏

私信

关注

热门文章

最新评论

计算机加电后操作系统启动过程
做而论道_CS: 开机上电后，CPU 即从 FFFF0H 开始执行程序。转来转去，就执行到了 BIOS 中的程序。 BIOS 中的程序，是主板厂家，专门为这块主板编写的。如果挪用到别的型号的主板上，往往是不能用的。 BIOS，英文原意是：基本输入输出系统。它的内容，就是一堆关于硬件的程序，有：　厂家为该主板上已经配置的硬件，编写的驱动程序。　厂家还为该主板所能增加的硬件，编写的检测程序。 CPU 执行这些程序后，主板上原装的硬件，就可以正常工作了。　如果有什么异常，将会 “滴滴” 报警。如果主板上，还插上了额外的硬件（如硬盘驱动器、显示器等），　BIOS 也都会检测到，并为其选用了最基本的驱动程序。这些硬件驱动程序，本来都是位于 BIOS 芯片中的。但是，CPU 从 BIOS 中读出程序代码时，读出的速度较慢。而且，还不能写入。因为 BIOS 是 ROM 类型的芯片。（有些内容，被逼无奈，只好写到 CMOS 芯片中。CMOS 虽然是 RAM 类型的芯片，但是它有电池供电，所以，信息就不会丢失。）因此，主板厂家在 BIOS 中，还编了一段 “搬移程序”。 CPU 执行之后，就把常用的硬件驱动程序代码，复制到了 RAM 内存中。以后，CPU 再从 RAM 中读取指令执行程序，速度，就快多了。这个 “搬移过程”，则称为 “安装”。如果硬盘驱动器是存在的，CPU 将在 BIOS 程序控制下，　将其 0 头 0 柱面 0 扇区的内容读到 RAM，再执行之。至此，主板上 BIOS 中的程序，就算完成任务了。 CPU 再执行，就是硬盘驱动器中的程序了。 0 头 0 柱面 0 扇区，被称为引导扇区。　其内容，则称为引导程序。 CPU 执完引导程序后，磁盘操作系统（DOS）就工作起来了。再以后，就是启动 WINDOWS 了。　启动 WINDOWS，又是执行一堆稀烂的程序。如果硬盘驱动器中，并没有 WINDOWS，　这就简单了：出现一个黑屏幕，就完事大吉。至此，计算机启动完毕。
对讲机的那点事：带你玩转LD800数字车载台读、写频操作：一
2401_83204658: 大佬能不能提供个写频软件LD800车载台，急求🤝
strapi 开源api && 内容管理平台试用
weixin_43367479: 你好，我直接发get请求拿不到关联字段的数据，你自己为啥吗
python爬虫从入门到放弃（七）之 PyQuery库的使用
DCLe: 想请教一下，我的输出为什么是像遍历一样？ <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> <class 'pyquery.pyquery.PyQuery'> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
教你在Nodejs中如何获取当前函数被调用的行数及文件名
乘风飞鹤: 2ms忽略不计？？？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。