摘要
日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中SQL平均执行查询时间短,性能表现优。腾讯云大数据 DLC 在存算分离和大数据量查询场景下,海量查询性能较 A 厂商 产品提升 248%,较 B 厂商产品提升36%。
在存算分离大数据量查询场景下,腾讯云大数据 DLC 较 A 厂商 、B 厂商表现更优,同时在较大任务上的任务执行成功率更高,所有任务均成功执行。结合性能、性价比、使用体验等因素,腾讯云 DLC 在云原生数据湖选择上整体上更具有竞争力。
1、数据湖性能对比资源规格
2、数据湖性能对比场景
本次性能对比在海量数据查询分析场景下进行测试。数据分析人员可以从海量明细数据中探寻业务规律,发现业务机会,验证业务假设。要求产品既能快速响应,处理大规模作业,同时还可以自动匹配大规模作业资源需求,满足分析人员分析不同规模和复杂度的查询作业的需求。本次测试使用 TB 级数据,模拟实际生产海量数据分析的场景对数据分析产品进行性能对比。
3、数据湖性能对比工具与方案
测试利用了 TPC-DS 基准,该基准由交易处理性能委员会(TPC)创建的数据集和查询组成。在衡量数据分析工具和数据库的性能方面,TPC-DS 是公认的行业标准。本次性能对比测试共 97 个 SQL 查询,使用 TPC-DS 工具定制数据量,测试数据与实际商业数据高度相似,因此可结合在 TPC-DS 测试基准下所开发出的 TPC-DS 测试工具对大数据产品进行性能分析。
本性能分析报告结论仅对本文档中所描述相同测试环境有效;软件版本、参数配置、设备配置、网络环境等要素均会影响性能分析结果。建议客户基于实际的业务模型进行实测验证,以全面地评估该配置是否符合业务要求。
4、数据湖性能对比结论
DLC 在本次性能对比中,从存算分离场景下大数据量的测试中,有着明显的性能优势。DLC 以低成本、高弹性的云原生数据湖解决方案,成为海量数据快速上云中的最佳实践。本次性能对比中,DLC 在产品性能、易用性、语法兼容性、成本方面,都体现出了一定优势。
A 厂商 vs DLC
-
A 厂商产品 Spark SQL 无法通过 SQL 编辑器提交,需要额外购买资源通过 client 提交,增加用户使用成本和学习成本。
-
A 厂商产品 SQL 语法兼容性问题多,与主流数据库语法存在差异,不支持部分 Hive、MySQL、Oracle、SQL Server 语法,性能调优规则与业界不一致,易用性较差,本次性能对比中共出现 4 条由于语法不兼容/ SQL 未通过校验导致执行失败的任务。
-
A 厂商产品与该厂商其他云产品过度耦合,使用成本较高,体验上存在割裂。
B 厂商 vs DLC
-
B 厂商产品计算引擎容错性较差,大计算量耗时查询出现失败,本