上次做了Hadoop集群的性能测试,因为主要的大数据开发工作在Spark上,这次做一下Spark的性能测试。
代码参考:spark-terasort
因为使用的CDH6.0.1,Spark版本2.2.0,代码需要做一些修改,这里已经在Spark2.3源码下修改好并编译打包,放到了Spark的examples里,可以替换Spark的examples。
链接:网盘下载
参数的设置
参考:Spark资源优化
目录
1. TeraGen生成随机数
生成随机数,Teragen指定数量参数为 k,m,g,t,如100g。
将结果输出到HDFS /benchmarks/spark-test/terasort-input。
sudo -uhdfs spark-s