本文介绍了云计算用例组中的“云计算用例白皮书” 4.0版,这是一个由超过1,400名参与者(版本3.0中为900人)组成的开放网络社区创建的信息仓库。 它从开放云宣言的一群支持者开始,并逐渐成长为包括大型和小型公司,政府机构,顾问和供应商的代表。
“云计算用例白皮书”的范围很全面,因此我们不会尝试一次阅读整个文档。 在本次审查中,我们将重点关注该组对云中服务级别协议问题的评估,这是一个重要的考虑因素,因为SLA描述了云提供商与云消费者之间的关系,从本质上定义了云消费者对云的信任基础提供商提供基础设施服务的能力。
什么是SLA?
作者同意SLA应该包含:
- 提供者将提供的服务列表以及每个服务的完整定义。
- 用于确定提供者是否按承诺提供服务的度量标准以及用于监视服务的审核机制。
- 如果不满足SLA的条款,提供商和消费者的责任以及双方都可以使用的补救措施。
- 关于SLA如何随着时间变化的描述。
作者讨论了两种SLA,即现成协议和定制的协商协议。 他们指出,有关键数据需求的客户不会对现成的协议感到满意,因此在进入云之前的第一步是确定数据和应用程序的关键性。
公共云通常提供不可协商的SLA,这对于具有关键任务应用程序或数据的人来说可能是不可接受的。
什么是SLO?
SLA包含服务水平目标(SLO),这些目标定义了服务的客观可测量条件; 一些示例包括吞吐量和数据流频率和时序的参数,VM和其他资源及实例的可用性百分比,或对不同SLO的重要性进行排名的紧迫性等级(例如“可用性比响应时间更重要”)。
SLO期望值应取决于将应用程序和应用程序访问的数据托管在同一云还是不同的云上。
监控与测量
基于SLO的服务级别管理是如何收集和处理云上的性能信息。 它是这样使用的:
- 云提供商使用服务级别管理来做出有关其基础架构的决策; 例如,如果吞吐量不总是满足客户的需求,则提供商可以重新分配带宽或添加更多硬件。 或者决定让一个顾客满意而又牺牲另一个顾客。 对于提供商而言,SLM旨在帮助根据业务目标和技术现状做出最佳决策。
- 云消费者使用SLM来决定如何使用云服务; 例如是否要添加更多虚拟机,以及该选项在什么价位变得太昂贵而无法证明收益。 对于消费者而言,SLM帮助他们决定使用云的方式。 有时还涉及如何使这些决策自动化。
您应根据SLA条款考虑哪些因素?
作者提出了定义SLA条款时要考虑的10个因素的清单:
- 业务级别目标:组织必须先定义为什么要使用云服务,然后才能确切定义要使用的服务。 这部分内容比组织政治问题多于技术问题:某些团体可能会削减资金或失去对基础架构的控制。
- 双方的责任:定义提供者和消费者之间的责任平衡很重要。 例如,提供商将负责“软件即服务”方面,但消费者可能主要负责其VM,该VM包含许可软件并处理敏感数据。
- 业务连续性/灾难恢复:消费者应确保提供商保持足够的灾难保护。 我想到两个例子:在云上存储有价值的数据作为备份和云爆发 (当内部数据中心无法处理处理负载时进行切换)。
- 冗余:考虑提供商系统的冗余程度。
- 维护:使用云的最好方面之一是提供商处理维护。 但是消费者应该知道,提供商何时会执行维护任务:
- 在那段时间内服务不可用吗?
- 服务是否可用,但吞吐量要低得多?
- 消费者是否有机会针对更新的服务测试其应用程序?
- 数据位置:有规定,某些类型的数据只能存储在某些物理位置。 提供者可以响应这些要求,并保证将消费者的数据仅存储在某些位置,并且可以审核该情况。
- 数据扣押:如果执法部门扣押提供商的设备以捕获属于特定消费者的数据和应用程序,则这种扣押可能会影响使用同一提供商的其他消费者。 考虑第三方提供额外的备份。
- 提供者失败:制定应急计划,考虑到提供者的财务状况。
- 辖区:同样,了解适用于您的提供者的当地法律以及适用于您的法律。
- 经纪人和代理商:如果您的提供商是云服务的经纪人或代理商,则需要了解提供商和实际提供商的策略。
SLA要求
作者提出了在考虑SLA时要考虑的14个职责列表:
- 安全性:消费者必须了解其安全性要求以及满足这些要求所需的控制和联合模式。 提供者必须了解他们必须交付给消费者以实现适当的控制和联合模式的内容。
- 数据加密:数据在移动和静止时都必须加密。 应该指定加密算法和访问控制策略的详细信息。
- 隐私:基本的隐私问题通过数据加密,保留和删除等要求来解决。 SLA应该明确说明云提供商如何在多租户环境中隔离数据和应用程序。
- 数据保留,删除:您的提供商如何证明他们遵守保留法律和删除政策?
- 硬件擦除,破坏:与#4相同。
- 法规遵从性:如果由于数据类型而必须执行法规,则云提供商必须能够证明其遵从性。
- 透明度:对于关键数据和应用程序,提供商在违反SLA条款时必须主动通知消费者。 这包括基础设施问题,例如中断和性能问题,以及安全事件。
- 认证:提供者应负责证明所需的认证并保持最新。
- 绩效定义: 正常运行时间是什么意思? 每个大洲的所有服务器都可用? 还是只有一个可用? 定义这些定义很有意义。 (本文的作者建议对性能术语进行标准化以使其更容易。)
- 监视:对于潜在的违规问题,您可能需要指定一个中立的第三方组织来监视提供程序的性能。
- 可审核性:由于消费者应对由于数据丢失或可用性而发生的任何违规行为承担责任,因此消费者能够审核提供商的系统和程序至关重要。 SLA应该明确说明这些审核的方式和时间。 它们可能会对供应商造成破坏性影响,并给企业带来高昂的成本。
- 指标:这些是有形的东西,可以在发生时进行监控,并在事实发生后进行审核。 必须客观且明确地定义SLA的指标。 此列表之后是常见指标的列表。
- 提供机器可读的SLA:这可以允许自动动态选择云代理。 换句话说,如果您的SLA要求代理对某些任务使用最便宜的提供程序,而对其他任务使用最安全的提供程序,则这种自动化类型使之成为可能。 (这种服务尚不可用,但是在为云SLA标准化讨论做贡献时要牢记这一点。)
- 人与人之间的互动:按需自助服务是云计算的基本特征之一,但是您的SLA应该考虑到,当您需要人时,可以使用一个人。
一些常见的性能指标(考虑因素12)包括
- 吞吐量:系统响应速度。
- 可靠性:系统可用性。
- 负载平衡:发挥弹性时。
- 耐久性:丢失数据的可能性。
- 弹性:资源可以增长多少。
- 线性度:负载增加时的系统性能。
- 敏捷性:提供商对负载变化做出响应的速度。
- 自动化:在没有人工干预的情况下处理的请求的百分比。
- 客户服务响应时间。
关于可靠性的一些经验法则
作者提供了有关云性能时可靠性的有效定义的简明论述。 它是这样的:
- 九分法则。 关于可靠性的一个通用指标是提供商提供的9的数量(例如,如果服务在99.99999%的时间可用,则为5九,那么系统总中断时间为每12个月5分钟)。 问题是,什么是停机? (如果提供者决定什么是中断,那将是一个非常糟糕的情况。)
- 层云。 许多云产品都是在其他云产品之上构建的,这对于灵活性和功能性来说非常有用,但是每个其他提供商都会降低系统的可靠性。 (例如,如果每个人将自己的评分定为5个9,那么该系统的总得分将小于5个9。)
- 您的应用及其数据之间的距离。 同样,随着提供者数量的增加,影响可靠性的其他因素也将占据上风。 每当其中一个系统出现故障时,您不仅会受到影响,而且如果它们之间的网络出现故障,也会受到影响。
这些都不是要吓the云消费者。 这些只是选择提供者时要考虑的结构性事实。
需求和交付模型,用例
在原始论文中 ,作者提供了两个表格:
- 表8.7:SLA要求和云交付模型。 该表交叉引用了我们讨论的SLA要求(数据加密,隐私,证书等)与交付模型PaaS,IaaS和SaaS(在原始论文中进行了讨论)。
- 表8.8:SLA要求和用例方案。 下表将SLA需求与七个用例场景交叉引用:
- 最终用户到云。
- 企业云到最终用户。
- 企业到云。
- 企业到云到企业。
- 私有(本地)云。
- 不断变化的云供应商。
- 混合云。
结论
关于云的服务级别协议的“云计算用例白皮书” 4.0版得出的结论很明确:
- 没有服务管理,治理,计量,监视,联合身份,SLA和基准,数据和应用程序联合,部署以及生命周期管理,云计算是不可行的。
- 云提供商有意义的透明性和披露是必要的。
- 如果存在满足要求的现有标准,则云用户必须坚持要求提供商使用该标准。 如果没有,坚持要求社区发展。
作者指出:
当组织使用云服务时,必须在服务级别协议中明确定义消费者和提供者的责任。 SLA定义了消费者将如何使用服务以及提供商将如何提供它们。 至关重要的是,云服务的使用者必须完全理解提供商的SLA的所有条款,并且在签署任何协议之前,使用者必须考虑其组织的需求。
此摘要和审阅提供了一个基线,以说明云服务使用者和提供商对云服务级别协议的关注和注意事项。 我们鼓励您全面阅读原始的“云计算用例白皮书” 4.0版,以了解云计算用例讨论小组对开发人员和计划人员应如何从其云提供商处获得的信息,以便为珍贵的数据和应用程序提供可靠的环境。
翻译自: https://www.ibm.com/developerworks/cloud/library/cl-rev2sla.html