CherryPick:Adaptively Unearthing the Best Cloud Configurations for Big Data Analytics(NSDI2017)

本文链接：https://blog.csdn.net/qq_35573752/article/details/83823389

CherryPick是一个采用贝叶斯优化的系统，旨在为重复的大数据分析作业自动寻找最佳或接近最佳的云配置，降低运行成本和搜索开销。面对复杂的云环境和应用需求，CherryPick能够以高概率（45-90%）找到最佳配置，比现有解决方案节省75%的搜索成本。系统通过建立性能模型，逐步减少不确定性，适应不同应用和工作负载，以低开销实现高精度和自适应性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract
为在云中运行的重复出现的大数据分析作业选择正确的云配置是很困难的, 因为可能有数十种可能的 vm 实例类型, 甚至还有更多的群集大小可供选择。选择不良会显著降低性能, 并将运行作业的成本平均增加2-3 倍, 在最坏的情况下甚至高达12倍。然而, 以低的搜索成本自动确定适用于各种应用程序和云配置的最佳配置是一项挑战。cherrypick 是一个利用贝叶斯优化为各种应用构建性能模型的系统, 这些模型的结构足以区分最佳配置或接近最佳的配置, 只需几个测试运行。我们在AWS EC2中的五个分析应用程序上的实验表明, cherrypick 有45-90% 的机会找到最佳配置, 或是接近最佳, 与现有解决方案相比, 可节省高达75% 的搜索成本。

Introduction

运行在云上的大数据分析正在迅速增长, 并已成为几乎每个行业的关键。为了支持各种用例, 许多不断发展的技术被用于数据处理, 例如 Map- Reduce, SQL-like languages, Deep Learning, and in- memory analytics。此类大数据分析应用程序的执行环境在结构上是相似的: 一组虚拟机 (vm)。但是, 由于不同的分析作业具有不同的行为和资源要求 (cpu、内存、磁盘、网络), 因此它们的云配置 (vm 实例类型和 vm 的数量) 不能简单地统一。

为应用选择正确的云配置对于服务质量和商业竞争力至关重要。例如, 对于相同的性能目标, 糟糕的云配置可能会导致高达12倍的成本。对于重复执行类似工作负载的重复作业[10,17]，从适当的云配置进行保存更为重要。尽管如此, 选择最佳的云配置 (例如最便宜或最快) 仍很困难, 因为要同时实现高精度、低开销和适应不同应用和工作负载的复杂性。

Accuracy：应用程序的运行时间和成本与云环境的资源、输入工作负载、内部工作流和应用程序的配置配置有着复杂的关系。很难用直接的方法来模拟这种关系。此外, 云动力学 (cloud dynamics ), 如网络拥塞和straggler引入大量的噪声 [23, 39]。

Overhead：Brute-force(蛮力)搜索最佳的云配置是昂贵的。分析应用程序的开发人员通常面临广泛的云配置选择。例如, amazon ec2 和 microsoft azure 提供了40多种 vm 实例类型, 具有各种 cpu、memory、磁盘和网络选项。google 提供了18种类型, 还允许自定义虚拟机的内存和 cpu 内核的数量 [2]。此外, 开发人员还需要选择合适的群集大小。

Adaptivity：大数据应用程序在其数据处理管道中具有不同的内部体系结构和依赖关系。手动学习构建单个应用程序性能模型的内部结构是不可扩展的。

现有的解决办法并不能充分解决所有面临的挑战。例如，Ernest[37]用少量的样本为机器学习应用程序训练性能模型，但是由于它的性能模型与机器学习作业的特定结构紧密绑定，因此它不能很好地用于SQL查询（适应性差）之类的应用程序。此外，Ernest只能选择给定实例族中的VM大小，并且需要为每个实例族重新训练性能模型。

在本文中, 我们介绍了 cherrypick 系统, 该系统可重新部署最佳或接近最佳的云配置, 从而最大限度地降低云使用成本, 保证应用性能, 并限制重新产生大数据分析作业的搜索开销。每个配置都会显示虚拟机的数量、cpu 计数、每个内核的 cpu 速度、每个内核的 ram、磁盘计数、磁盘速度和虚拟机的网络工作容量。

CherryPick的关键思想是建立一个足够精确的性能模型，以便我们能够从其他配置中区分出接近最优的配置。模型的不精确性的容错性使我们能够实现低开销和自适应性：只需要很少的样本，并且不需要将特定于应用程序的洞察嵌入到建模中。

cherrypick 利用贝叶斯优化 (Bo) [13, 28, 33], 一种优化黑盒函数的方法。由于它是非参数化的, 因此它没有任何预定义的性能模型格式。Bo 估计每个候选云配置下的成本和运行时间的置信区间 (实际值应以很高的概率进入的范围)。随着更多样本的出现, 置信区间得到了改善 (变窄)。cherrypick 可以判断应该对哪些云配置进行采样, 以最好地减少当前建模中的不确定性, 并接近最佳。cherrypick 使用置信区间来决定何时停止搜索。第3节提供了更多详细信息, 说明 Bo是如何工作的, 以及我们为什么从其他替代方法中选择 Bo。

要将Bo 集成到 cher