eBay使用MPP数据仓库已经有二十年的历史,他们的系统有60PB的数据,上万张的核心表,这些数据支撑着eBay最核心的商务逻辑和站点功能。从17年开始,eBay将这个庞大的数仓向Spark做迁移,使用 eBay 开发的工具,这其中90%的工作都可以自动化地完成,并且通过优化Spark框架,这些措施使得整个流程节省了一半的内存。本次演讲eBay将分享这迁移过程中的实践,经验与优化。主要包括以下知识:
自动化数据迁移工具集:元数据管理,SQL转换器,管道生成器,数据验证,工作流控制等;
数据的物理布局:如何对表做bucket和partition;
使用Spark的Adaptive Execution简化参数配置,优化内存使用,处理数据倾斜;
使用Spark的Indexed Bucket提升大量核心表的查询性能。
关注Hadoop技术博文(iteblog_hadoop) 并回复 ebay 获取本文相关ppt。
欢迎关注本公众号:iteblog_hadoop:
回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT
回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT
0、回复 电子书 获取 本站所有可下载的电子书
2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了
3、即将发布的 Apache Spark 2.4 都有哪些新功能
4、干货 | 深入理解 Spark Structured Streaming
5、Apache Spark 黑名单(Blacklist)机制介绍
6、Kafka分区分配策略(Partition Assignment Strategy)
8、干货 | Apache Spark 2.0 作业优化技巧
10、Flink Forward 201809PPT资料下载
11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档: http://flink.iteblog.com 13、Carbondata 中文文档: http://carbondata.iteblog.com