高性能、高流量互联网应用系统架构设计上所遵循的基本原则

高性能 、高 流量互联网 应用 系统 架构 设计 上所遵循的基本原 则。

    原则一:假设故障总会发生(design with failure in mind)
    在设计和实现大型互联网在线应用时,

架构师必须考虑到系统各模块、各应用 服务器 、各 开源 应用 软件 的故障比 率和失效的潜在原因。当服务的可用性(availability)成为系统设计的首要目标时,尤其需要在设计阶段就充分考虑如何在系 统某部分发生故障时,仍然保持一定的服务可用性。一些基本的假设包括:
    ·没有bug的软件不存在,只是故障率高低不同,应优先关注高故障率应用。
    ·硬件总会发生故障,需要备份和冗余。
    ·导致某应用崩溃的请求,如不能及时终止或被redirect,可能会导致所有服务器一个接一个的瘫痪。
    ·构建仅包括最简单输入输出逻辑和固定输出内容的dot 模式 server,以应 对应用服务群大面积瘫痪或 负 载 极限发生时的服务响应。
    ·每次release正式升级前,在模拟生产环境的staging环境运行版本测试

    原则二:数据 分区处理 (partition your data)
    在分布式计算环境下,如何高效的处理海量数据?如何在bug发生后更加容易的重新批处理?一个基本的设计原则就是分区 (partition),即将待处理 信息按照生成节点、内在一致性(self contain)、时间等因素进行分组,让每个平行处理节点可尽量仅处理切分后的数据,而减少节点间的数据交换。分区的基本原则包 括:
    ·应用流量均衡load balance和数据分区结合
    ·容易在分组内进行再分区
    ·减少分组数据之间的状态依赖
    ·减少数据中心之间的数据交换

    原则三:冗余(redundancy)
    冗余几乎是高可用系统设计的必然选择,也是老生常谈的话题,然而如何做到成本与效率的最佳平衡则是架构设计考虑的重点。可以 参考 的经验包括:
    ·优先减少单点故障。
    ·单个应用可快速重启恢复。
    ·应用间减少启动和运行依赖,尽量可独立工作。
    ·与其依赖热备冗余,不如建立服务中断后的快速恢复预案(依赖热备系统,在实战中总是很难理想地恢复全部服务)。

原则四:监控,监控,还是监控(monitor, monitor, monitor)
    从应用部署到数据中心的第一天开始,就要意识到,没有人能够7x24小时的盯着几十个应用系统,近百个应用 程序 的运行状 态。有没有down机,有没有程序崩溃,有没有 数据库 死锁, 服务是否始终可用,这些不但是困扰 工程师 的 问题 ,更是牵扯到客户支持,乃至建立产品品牌的重要问题。如果你想"一切尽在掌 握",不想经常(偶尔总是有的,因为未知故障总会发生)在凌晨被运营 团队 的电话叫醒,那 么赶快set up你的自动监控系统,让你的生活轻松起来吧。
    至少有两大类的monitor群组需要建立起来:
    从客户角度:
    ·服务的可用时间/失效时间
    ·服务响应延迟
    ·客户累积服务次数
    从系统容量角度:
    ·各应用服务器的cpu/ 内存 /存储负载统计
    ·高峰与平均比(peak to mean ratio)
    ·应用服务失效/崩溃/延迟报警
    ·应用服务自动恢复通知
    ·数据同步延迟和失效警报
    ·后台日常处理日报/周报/月报,趋势图

    原则五:保持简捷(keep it simple stupid, kiss)
    传统软件 开发 中 的变更 管理 是 一个难题,在互联网应用系统开发中变更则比过去更加频繁,同时对产品质量的要求则更高。面对这个难题,普遍的结论是,唯一 不变的就是变化本身。然而实战中,控制变化的规模和影响,仍然需要找出一些"以不变应万变"的准则,这对于提高产品开发效率和保持高 质量至关重要。
    分清"保持"与"非保持"内容
    ·业务 需求 总 会变化,属于"非保持",架构设计上充分考虑其变化,而非特化。
    ·而软件本身像一个不断成长进化的生命,有自己的dna。找到dna,就找到了"保持",例如设计的可扩展性,可维护性,可 测试性。
    简单原则
    · 代码 写得 越多,维护越复杂,需要不断地通过重构来简化。
    ·复杂的系统容易出错,维护成本高,要避免设计单个复杂系统。
    ·如果测试人员需要费九牛二虎之力才能理解"天才"的设计和实现,最好抛弃它。否则有一天你会为测试覆盖率难以提高,故障重 现困难而沮丧。
    原则六:即时架构(just in time architect)
    即时架构是在寻找最佳设计和资源限制之间所做出的实用选择,此原则可能更加适用于快速变化的软件开发领域,例如互联网,而非 严谨的产品线软件开发。"设计"和"重构"成为每个版本开发周期中不断重复的迭代步骤。
    即时设计
    ·在每个版本只有一个月的设计、开发和测试周期的约束下,要将 基础 设施 (infrastructure)一次设计到最佳状态是不可能的。
    ·基础架构可满足未来6个月至1年(视业务增长与投入的预测而定)应用的扩展要求即可。
    即时重构
    ·知道何时、何处需要重构是关键,提前筹划,而不要临阵磨枪。
    ·要为重构预留足够的开发资源。在freewheel,新产品开发,现有产品维护和基础架构重构的资源比例大约是25% : 50% : 25%.
    ·重构不是"推到重来",每次重构一部分要好得多,否则你的测试团队负担太重,会导致产品质量波动。
    以上是freewheel中国研发团队在研发monetization rights management,mrm在线视频广告 平台 过程中的一些实战经 验分享,在qcon 2009 beijing大会演讲内容基础上部分整理。
作者简介:
    本文作者系freewheel核心系统 技术 总监,email: wangdieda@hotmail.com ,欢迎交流,今后有机会希望能与大家分享 freewheel在利用hadoop进行日志处理方面的一些心得。
    ·容易在分组内进行再分区
    ·减少分组数据之间的状态依赖
    ·减少数据中心之间的数据交换
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值