Spark在不同存储格式下的性能对比

本文通过对Spark在TEXT、PARQUET和YDB三种存储格式下进行全方位性能测试,揭示数据存储格式对Spark性能的巨大影响。测试结果显示,Text性能较差,而YDB在大部分场景中比Parquet表现出显著的性能提升,涉及检索过滤、排序、统计、高纬值列处理和存储空间使用等方面。
摘要由CSDN通过智能技术生成

       笔者发现,很多同学在各种项目中尝试使用Spark,大多数同学最初开始尝试使用Spark的原因都很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark进行合理的调优,Spark作业的执行速度可能会很慢,甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。
       事实上,Spark系统的性能调优是一个很复杂的过程,需要对Spark以及Hadoop有足够的知识储备,从硬件、操作系统、HDFS、数据存储格式、Spark等多个层面都会对性能产生很大的影响,显然不是调节几个参数就可以搞的定的。本文测试的目的是用来对比 Spark 三种存储格式TEXT、PARQUET、YDB的在性能差异。
       因机器环境以及配置的不同,测试结果可能略有差异,该测试报告仅对笔者的软硬件环境负责。

测试结论:
通过以下比较全面测试,发现数据存储格式对Spark的性能有非常大影响。
Text的测试性能表现极差,在绝大部分场景中,YDB相比Parquet有较大的性能提升。

1、检索过滤性能

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值