Spark组件的benchmark

本文介绍了Spark组件的基准测试,包括IBM的Spark-bench工具的使用,它用于分析和优化Spark性能。讨论了如何生成数据、运行典型负载,并展示了报告包含的基准点。此外,还提到了其他性能监测工具,如ganglia、nmon和JVM层面的监控工具。最后,文章探讨了如何使用自定义数据进行测试和评估Spark性能。
摘要由CSDN通过智能技术生成

Spark组件的benchmark

一、  Benchmark 简单介绍

基准测试(benchmark),主要指的是,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。目前主要的测试点是测试负载(workload)的执行时间,传输速率,吞吐量,资源占用率等。

目前在大数据开源组件上,还没有统一的标准,尤其在spark上更是很少,目前IBM,Intel等都自己写了一些benchmark的工具,原理上是生成模拟的数据或使用真实数据,在系统上运行典型负载,进而暴露出系统的瓶颈和性能优势,完成系统评测。

(注:其中spark SQL有标准,目前有TPC-BB比较可靠,这块也有了解放在和hive组一起测的地方写)

 

二、  IBM的Spark-bench

这个工具是用来分析spark的性能表现,用于帮助spark系统的设计和性能优化。

自带有data_gen可以生成不同数据量的数据,

支持以下典型负载:

跑出来的测试报告包含以下基准点(metrics)

job execution time, input data size, dataprocess rate    

使用的数据源:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值