spark-基准测试

最新推荐文章于 2024-07-08 15:09:49 发布

freshghost1234

最新推荐文章于 2024-07-08 15:09:49 发布

阅读量2.1k

点赞数

分类专栏：大数据-计算框架-spark 文章标签： spark 压力测试

本文链接：https://blog.csdn.net/qq_34969081/article/details/80109754

版权

本文介绍了为评估从阿里云转向金山云的成本效益，进行的Spark集群压力测试。采用梯度测试法，针对10亿和24亿条数据进行KMeans分析，测试了磁盘I/O、网络I/O、内存使用率和CPU使用率。利用Spark-Bench生成数据并执行SQL操作，通过Ambari监控集群性能。测试结果显示集群资源利用率未达瓶颈。

摘要由CSDN通过智能技术生成

背景

因成本影响，公司想从高价格的阿里云转到价格较低的金山云上，让我们做一下对金山云上自带的spark_on_yarn 进行压力测试。经过多方讨论，最终选择sparkbench+ambari的方案。

方案

将采用梯度测试法，对集群的磁盘I/0,网络I/O,内存使用率，cpu使用率四个纬度测试。
1.10亿条24个属性kmeans的向量数据创建、数据分析。
2.24亿条24个属性kmeans的向量数据创建、数据分析（数据的创建最多是max(Int))。

资源配置

这里写图片描述

总的集群资源
表1

cluster cpu cores	cluster memory	cluster disk	node
96	360G	24T	12

方案一-10亿条数据测压

Spark-Bench

Spark-Bench is a flexible system for benchmarking and simulating Spark jobs.

Spark-Bench 是一个模仿spark job测试基准的弹性系统

note:详细细节可以查看spark-bench document

Data generator 10亿条数据

spark-bench = {
  spark-submit-config = [{

    conf={

      "spark.default.parallelism"=100
   }
    spark-args={master="yarn"
     num-executors=10
     executor-cores=4
     executor-memory="4g"

}
    workload-suites = [
      {
        descr = "One run of kmeans and that's it!"
        workloads = [
          {
            name = "data-generation-kmeans"
            rows