分享讲师: 潘星
讲师简介:
硅谷某大型互联网公司担任大数据开发工程师,多年大数据开发经验,项目经理,长期从事复杂数据业务架构。
分享大纲:
1. Spark join 介绍
2. 大数据实战中常见的join场景分析
3. 使用布隆过滤器优化join效率
看点:在大数据日常工作中,多个数据之间的join是无法绕开的一个话题,特别是当数据量达到一定量级之后,如果不对各类join的原理的机制有所理解就很容易写出资源消耗很大的任务,甚至直接出现资源不够的情况。本次介绍会深入讲解各种情况下的spark join 实战处理。
目标收益:
1. 了解core spark、spark sql join的原理
2. 了解如何选择spark join的类型
3. 了解多种优化spark join效率的实战手段和各自的优缺点
(识别图中二维码进行报名哦~)
报名链接:
【线上直播】Spark 数据 join 实战