eBay：将60PB的MPP DBMS迁移至Spark的经验

最新推荐文章于 2023-02-11 15:14:23 发布

Hadoop技术博文

最新推荐文章于 2023-02-11 15:14:23 发布

阅读量684

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/b6ecl1k7BS8O/article/details/85181713

版权

eBay分享了将60PB的MPP数据库迁移到Spark的经验，包括自动化迁移工具、数据物理布局优化、Spark的Adaptive Execution和Indexed Bucket使用，以提升查询性能和内存效率。迁移过程中，90%的工作可通过自动化工具完成，整个流程内存消耗减少了一半。

摘要由CSDN通过智能技术生成

eBay使用MPP数据仓库已经有二十年的历史，他们的系统有60PB的数据，上万张的核心表，这些数据支撑着eBay最核心的商务逻辑和站点功能。从17年开始，eBay将这个庞大的数仓向Spark做迁移，使用 eBay 开发的工具，这其中90%的工作都可以自动化地完成，并且通过优化Spark框架，这些措施使得整个流程节省了一半的内存。本次演讲eBay将分享这迁移过程中的实践，经验与优化。主要包括以下知识：

自动化数据迁移工具集：元数据管理，SQL转换器，管道生成器，数据验证，工作流控制等；
数据的物理布局：如何对表做bucket和partition；
使用Spark的Adaptive Execution简化参数配置，优化内存使用，处理数据倾斜；
使用Spark的Indexed Bucket提升大量核心表的查询性能。

关注Hadoop技术博文(iteblog_hadoop) 并回复 ebay 获取本文相关ppt。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

猜你喜欢

欢迎关注本公众号：iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

0、回复 电子书 获取 本站所有可下载的电子书

1、Apache Spark 统一内存管理模型详解

2、Elasticsearch 6.3 发布，你们要的 SQL 功能来了

3、即将发布的 Apache Spark 2.4 都有哪些新功能

4、干货 | 深入理解 Spark Structured Streaming

5、Apache Spark 黑名单(Blacklist)机制介绍

6、Kafka分区分配策略(Partition Assignment Strategy)

7、Spark SQL 你需要知道的十件事

8、干货 | Apache Spark 2.0 作业优化技巧

9、[干货]大规模数据处理的演变(2003-2017)

10、Flink Forward 201809PPT资料下载

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档： http://flink.iteblog.com 13、Carbondata 中文文档： http://carbondata.iteblog.com

640?wx_fmt=png

Hadoop技术博文

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。