大数据管理技术 | 基于Spark的tpc-h22条查询语句及优化
文章目录基于Spark的tpc-h查询语句及优化1.实验目的2.实验环境2.1 电脑&虚拟机配置2.2 Java&Spark设置3.数据上传&建表4.tpc-h测试集22条查询4.1 查询语句4.2 运行时间分析5.优化5.1 数据倾斜5.2 shuffle5.3 持久化5.4 Spark多核运行5.5 虚拟机设置6.结果与分析7.心得体会基于Spark的tpc-h查询语句及优化1.实验目的选择了tpc-h的22条语句进行查询测试,并尝试了shuffle优化、持久化、spark
原创
2020-08-15 11:01:25 ·
982 阅读 ·
0 评论