spark-基准测试

本文介绍了为评估从阿里云转向金山云的成本效益,进行的Spark集群压力测试。采用梯度测试法,针对10亿和24亿条数据进行KMeans分析,测试了磁盘I/O、网络I/O、内存使用率和CPU使用率。利用Spark-Bench生成数据并执行SQL操作,通过Ambari监控集群性能。测试结果显示集群资源利用率未达瓶颈。
摘要由CSDN通过智能技术生成

背景

因成本影响,公司想从高价格的阿里云转到价格较低的金山云上,让我们做一下对金山云上自带的spark_on_yarn 进行压力测试。经过多方讨论,最终选择sparkbench+ambari的方案。

方案

将采用梯度测试法,对集群的磁盘I/0,网络I/O,内存使用率,cpu使用率四个纬度测试。
1.10亿条24个属性kmeans的向量数据创建、数据分析。
2.24亿条24个属性kmeans的向量数据创建、数据分析(数据的创建最多是max(Int))。

资源配置

这里写图片描述

总的集群资源
表1

cluster cpu cores cluster memory cluster disk node
96 360G 24T 12

方案一-10亿条数据测压

Spark-Bench

Spark-Bench is a flexible system for benchmarking and simulating Spark jobs.

Spark-Bench 是一个模仿spark job测试基准的弹性系统

note:详细细节可以查看spark-bench document

Data generator 10亿条数据

spark-bench = {
  spark-submit-config = [{

    conf={

      "spark.default.parallelism"=100
   }
    spark-args={master="yarn"
     num-executors=10
     executor-cores=4
     executor-memory="4g"

}
    workload-suites = [
      {
        descr = "One run of kmeans and that's it!"
        workloads = [
          {
            name = "data-generation-kmeans"
            rows
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值