Spark组件的benchmark
一、 Benchmark 简单介绍
基准测试(benchmark),主要指的是,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。目前主要的测试点是测试负载(workload)的执行时间,传输速率,吞吐量,资源占用率等。
目前在大数据开源组件上,还没有统一的标准,尤其在spark上更是很少,目前IBM,Intel等都自己写了一些benchmark的工具,原理上是生成模拟的数据或使用真实数据,在系统上运行典型负载,进而暴露出系统的瓶颈和性能优势,完成系统评测。
(注:其中spark SQL有标准,目前有TPC-BB比较可靠,这块也有了解放在和hive组一起测的地方写)
二、 IBM的Spark-bench
这个工具是用来分析spark的性能表现,用于帮助spark系统的设计和性能优化。
自带有data_gen可以生成不同数据量的数据,
支持以下典型负载:
跑出来的测试报告包含以下基准点(metrics)
job execution time, input data size, dataprocess rate
使用的数据源: