论文阅读：Call for establishing benchmark science and engineering

最新推荐文章于 2024-11-26 09:47:39 发布

蝴蝶Maple

最新推荐文章于 2024-11-26 09:47:39 发布

阅读量614

点赞数

分类专栏： paper 文章标签：论文阅读 benchmark

本文链接：https://blog.csdn.net/qq_24046745/article/details/124972643

版权

paper 专栏收录该内容

14 篇文章

订阅专栏

摘要

目前，在多学科之间还没有一致的基准测试。即使以前的工作也没有试图将多学科中不同类别的基准联系起来。本文研究了基准项的起源和演变。总结了五种基准测试，包括测量标准、具有定义属性的标准化数据集、具有代表性的工作负载、具有代表性的数据集和最佳实践，它广泛存在于多学科中。我认为，发展这一学科面临着两个紧迫的挑战：跨多学科建立一致的基准测试和开发元基准来衡量基准本身。我建议建立基准科学和工程；主要目标之一是建立一个跨多学科的标准基准层次结构。现在是推出多学科基准、标准和评估期刊TBench的正确时机，以交流最先进的基准科学与工程相关问题。

一、The origin and evolution of the benchmark term

基准测试在生活中很常见，比如说基金经理将自己与竞争对手进行比较，或者从一个基准的数据中进行比较，又比如说运动员在项目中进行比较。本节主要介绍基准测试的起源和演变过程。

现代基准概念（接近其当前的定义）首次出现在测量科学中，后来被扩展到其他学科。

在计算机学科中，最早的基准测试工作之一，可以追溯到1962年的奥尔巴赫公司的标准EDP报告中，Joslin将这种基准测试工作定义为“一个用于确定计算机系统的速度性能的例程“，1965年左右，乔斯他指出，计算机评估中最重要的问题应该是“这个系统需要多长时间来处理我的工作负载（我的计算机应用程序）？”。这种探索方法产生了工作负载建模、应用程序基准测试、合成基准测试和标准基准测试的概念，这些概念沿用至今。

工作负载建模：工作负载建模是从整个实际工作负载中选择一个具有代表性的程序样本集，这个是保证基准质量的关键因素。
应用程序基准测试：应用程序基准测试是要在几种不同的计算机配置上运行的混合程序，以获得在处理特定应用程序方面的比较性能。
合成基准测试：因为在不同的系统之间移植实际应用程序的困难（成本），1969年，Bucholz[6]提出了更大程度的抽象化-一个模拟实际应用程序的合成基准测试，在不同系统之间进行比较是必要的。
标准基准测试：综合基准成本的上升推动了基准的标准化。1976年，成立了一个政府和行业个人人士小组，以确定建立标准基准库的可能性，这是在这方面的第一次尝试。

管理学课的基准测试实践在原理上与计算机学科的基准测试驱动的性能工程非常相似。计算学科试图揭示计算机系统性能瓶颈的根源，并考虑到具体的工作负载对计算机系统进行优化。在管理领域，施乐公司是基准管理的先驱：它的根源始于1979年，通过这个过程进行外部评估，这个过程被称为竞争性基准。这一基准研究和实践包含了一个深入的，正在进行的对最佳竞争对手的研究，包括竞争对手产品的详细逆向工程、技术流程、他们取得的成就和他们是如何做到的，以及对运营能力的拆卸分析竞争产品的特点。

二、Five categories of benchmarks

1. measurement standard

基准的第一类是测量标准，在计算机学科中，Linpack基准测试就属于这一类，它被广泛用于报告高性能计算机的性能。计量指南联合委员会(JCGM)将测量标准定义为量定义的实现（ a realization of the definition of a quantity），具有规定的值和相关的测量不确定度。如图1所示，一个基准实现了一个量的定义、度量的单位（unit of measurement）、测量方法（measurement methodology）和具有规定的测量不确定度的参考实现（reference implementation with stated measurement uncertainty）。量（quantity ）是被测物体的可测量性质，如长度、能量等。基准测试包括两个阶段：基准测试的设计和实现，以及用基准测试来测量对象的属性。

2. representative workloads

第二个是在测量系统上运行的代表性工作负载。在第1节中讨论的计算机学科中的应用程序基准或综合基准就属于这一类。它们为系统设计提供设计输入和实现，它们并不一定符合测量标准的严格定义，但它们也被用于评估系统。例如，在计算机学科中，许多深度学习工作负载(算法)是随机的，重复性较差。深度学习是一种人工智能(AI)的工作负荷（workload）。它们是在系统中不可忽视的代表性工作负载设计和实现。

3. standardized data set

第三种是代表真实世界数据科学问题的标准化数据集，具有已定义的属性，其中一些具有基本的真实性ImageNet（深度学习基准）和MIMIC-III（重症监护基准）就是典型的例子。这类别的基准是通常用于测量不同的算法。最先进的算法实现加上数据集通常构成了第二类的基准。

4. representative data set

第四个是一个有代表性的数据集用作参考。例如，金融基准是一种指数（统计度量），从一组具有代表性的基础数据中计算出来，被用作金融工具或合同的参考。已知的金融基准包括伦敦银行同业拆借利率(Libor)和欧元银行同业拆借利率。

5. industry best practices

第五种是在不同领域中的行业最佳实践。基准测试是指持续寻找行业的最佳实践，从而实现卓越的性能，并针对它们来衡量产品、服务和流程。施乐公司（Xerox Corporation）率先开创并加强了这一基准测试过程。

三、the chanllenge

如图2，这五类基准测试之间有着密切相关的关系。.然而，目前还没有跨多学科的一致的基准测试。即使以前的工作也没有试图将多学科中的这五种基准联系起来。计量学科学为这一方向奠定了基础。但是它们主要关注经典的量，如长度、时间和功率。与那些经典量显著不同的是，计算机、管理或金融学科中的对象的属性是受其数学问题定义和具体实现的影响较大，这些都是一些挑战。

不同的观测角度可能会扭曲可观测到的性质。例如，如图2所示，计算机工作负载的数量值受到数学问题定义、具体算法、不同的ISA和微体系结构的实现影响很大。

我进一步以第一类基准为例，以说明解决这一挑战的重要性。衡量“量子霸权”（Quantum Supremacy）是传统的超级计算机的一个基本问题。谷歌在2019年的“量子霸权”声明指出，梧桐超导量子计算机（Sycamore superconductive quantum computer）（200秒）比2016年峰会最快的系统快10亿倍（一万年），麻省理工学院系统在2016年的[18]（1万年）中负责测量和模拟100万个样本。然而，在2021年，一组科学家和工程师在太阳威超级计算机上宣布，他们将美国谷歌梧桐经典的模拟采样时间问题减少到304秒，通过算法和架构创新实现了减少一万年的成就。

加速在不同的系统中比值是不同的，在正确解释加速的含义之前，在图2中定义的层次结构下充分理解基准测试是优先考虑的，否则它会误导科学社区。在其他学科中，情况可能会变得非常复杂，因为一个明确的等级制度定义也是一种奢侈。跨多学科建立一致的基准测试是非常具有挑战性的。

另一个挑战是如何衡量基准测试本身。例如，在计算机学科中，一个（良好的）基准测试的特征，比如代表性，重要性，能繁殖的，公平的，能作证的，可重复的，并讨论了经济问题。然而，这些属性中的大多数都是主观的。我们需要一个元基准测试（meta-benchmark）来评估这些基准测试。

四、The proposal

我认为有必要建立基准科学和工程；其中一个目标是跨多学科建立标准的基准层次结构。有两个原因。首先，在不同类别的基准测试中有一个合理的层次结构。正如我们在第2节中讨论的，第一个基准类别是根据更严格的标准从第二类中选择的。第二，通过这种层次结构，我们可以应对基准测试成本不断上升的挑战。例如，我们可以将更多的资源放在主要基准上，同时通过可跟踪性将其他基准与主要基准联系起来。对基准测试成本不断上升的挑战。

图3是我的建议。最重要的是保持基准测试的一致，而以下措施将有助于实现该目标：

（1）对基本数量和计量单位的统一定义

（2）以不同的精度（以及成本）水平实现数量和测量单位

（3）跨标准基准测试层次结构的可追溯性和校准。可追溯性（Traceability）是测量结果的一个性质，结果可以记录完整的链来校准，有助于测量的不确定的指标。

如图在第一层，国际社会需要明确基本的基准原则，实现基本数量（quantity）、计量单位、初级测量标准。第二层是基准测试的第一类和第二类。他们将使用来自第一层的基本数量和测量单位的定义和实现。同时，衍生的量和计量单位的定义和实现也是必要的。

第三层是基准测试的第二类和第四类。社区经常需要重新考虑和考虑数学或数据问题的定义，以提供最先进的统计数据和最先进的实现方式。第四层是基准测试的第五类。在寻找最佳实践时，密切关注所有层次结构的发展是必要的。

TBench: the venue for benchmark science and engineering

我认为现在是推出新期刊-BenchCouncil Transactions-的最佳时机，即关于基准、标准和评估(简而言之，TBench)。它将提供一个交流和解决上述挑战的场所，因为目前还没有关于这一领域的多学科和跨学科的期刊。我只在管理学科中注意到一个密切相关的期刊，名为《Benchmarking: An International Journal》。

在计算机学科中期刊的一些问题：

与其他顶级会议相比，一篇期刊论文往往无法得到一致和及时的评论。
显著的审稿周期很长

为了解决上面问题，有一些方案：

一致和可靠的审阅，除了30多个基础的编辑外还邀请接近30个副编辑（具有博士学位的初级研究人员）。副主编类似于一个会议的外部审查委员会成员。一个由创始编辑、编辑和副编辑组成的团队将为一致和可靠的评论提供基础。
快速追踪同行审议。主编(EIC)将阅读每篇论文的摘要和导言。假设团队认为这是一份具有高影响潜力的高质量论文。在这种情况下，他们将邀请三名编辑及时进行审查，包括可能进行的远程讨论，并在三周内做出最终决定。该团队将要求一名编辑和两名副编辑审查其他论文。总的来说，这个团队将在一个月内完成一轮的决定。
双盲审过程。没有利益冲突(COI)的EIC团队的一名成员负责检查COI，而另一名EIC和编辑则不知道作者的身份，每一篇发表的文章都由至少三名独立的审稿人使用双盲的同行评审过程进行评审。