Spark做TPC-DS性能测试

89 篇文章 10 订阅
68 篇文章 0 订阅

背景

最近由于在做上云的工作,并且公司离线部分引擎是Spark,所以做了一次基于TPC-DS性能比对测试。
云上和云下的机器主要不同如下:

不同点云上云下
存储OSSHDFS
机器CPUIntel® Xeon® Platinum 8269CY CPU @ 2.50GHzIntel® Xeon® Gold 6226 CPU @ 2.70GHz

TPC-DS是什么

如下解释:

TPC-DS is a data warehousing benchmark defined by the Transaction Processing Performance Council (TPC)
The “DS” in TPC-DS stands for “decision support.”

TPC-DS数据来源

进行TPCDS的数据来源需要我们自己生产,参考Spark Commiter和PMC的项目 spark-tpcds-datagen,具体的生产数据命令如下:

nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log &

生产了大约200GB的数据

TPC-DS的SQL来源

目前很多引擎都自带了TPC-DS的sql语句(如Trino,Spark),目前我们参考Spark的提供的sql语句如下:
TPC-DS v1.4
TPC-DS v2.7

运行TPC-DS Benchemark

由于spark内置的TPCDSQueryBenchmark.scala里是local模式运行,所以我们得修改成如下:

vi  spark/sql/core/src/test/scala/org/apache/spark/sql/execution/benchmark/TPCDSQueryBenchmark.scala
  
  override def getSparkSession: SparkSession = {
    val conf = new SparkConf()
//      .setMaster("local[1]")
      .setAppName("test-sql-context")
//      .set("spark.sql.parquet.compression.codec", "snappy")
//      .set("spark.sql.shuffle.partitions", "4")
//      .set("spark.driver.memory", "3g")
//      .set("spark.executor.memory", "3g")
//      .set("spark.sql.autoBroadcastJoinThreshold", (20 * 1024 * 1024).toString)
//      .set("spark.sql.crossJoin.enabled", "true")

同时还得修改脚本spark-tpcds-datagen/bin/report-tpcds-benchmark,如下:

vi spark-tpcds-datagen/bin/report-tpcds-benchmark
\\ 删除以下四个配置
--conf spark.ui.enabled=false          \
  --conf spark.master=local[1]           \
  --conf spark.driver.memory=60g         \
  --conf spark.sql.shuffle.partitions=32 \

用如下命令进行测试

nohup ./bin/report-tpcds-benchmark /tmp/spark-tpcds-data /tmp/benchmark-result &> benchmark.log &

结果

在这里插入图片描述
作图的工具可以参考:
tubiaoxiu

其他有意思的文章如下:
dsdgen
tpcds-kit
warehouse-performance-record

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值