Spark 大数据处理最佳实践

原文地址
开源大数据社区 & 阿里云 EMR 系列直播 十一期
主题:Spark 大数据处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:
大数据概览

如何摆脱技术小白

Spark SQL 学习框架

EMR Studio 上的大数据最佳实践

直播回放:扫描文章底部二维码加入钉群观看回放

1
大数据概览

大数据处理 ETL (Data → Data)

大数据分析 BI (Data → Dashboard)

机器学习 AI (Data → Model)

图片

2
如何摆脱技术小白

什么是技术小白?
只懂表面,不懂本质

只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job

摆脱技术小白的药方
懂得运行机制

学会配置

学会看 Log

懂得运行机制:Spark SQL Architecture
图片

学会配置:如何配置 Spark App
配置 Driver

 • spark.driver.memory

 • spark.driver.cores

配置 Executor

 • spark.executor.memory

 • spark.executor.cores

配置 Runtime

 • spark.files

 • spark.jars

配置 DAE

……

参考网址:
https://spark.apache.org/docs/latest/configuration.html

学会看 Log:Spark Log
图片

3
Spark SQL 学习框架
Spark SQL 学习框架( 结合图形/几何)

  1. Select Rows
    图片

图片

  1. Select Columns
    图片

图片

  1. Transform Column
    图片

图片

  1. Group By / Aggregation
    图片

图片

  1. Join
    图片

图片

Spark SQL 执行计划

  1. Spark SQL - Where
    图片

  2. Spark SQL - Group By
    图片

  3. Spark SQL - Order by
    图片

4
EMR Studio 上的大数据最佳实践

EMR Studio 特性:
兼容开源组件

支持连接多个集群

适配多个计算引擎

交互式开发 + 作业调度无缝衔接

适用多种大数据应用场景

计算存储分离

  1. 兼容开源组件
    EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

图片

  1. 支持连接多个集群
    一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

图片

  1. 适配多个计算引擎
    自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作

图片

  1. 交互式开发 + 作业调度无缝衔接
    Notebook + Airflow : 无缝衔接开发环节和生产调度环节

利用交互式开发模式可以快速验证作业的正确性.

在 Airflow 里调度 Notebook 作业,最大程度地保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

图片

  1. 适用多种大数据应用场景
    大数据处理 ETL

交互式数据分析

机器学习

实时计算

  1. 计算存储分离
    所有数据都保存在 OSS 上,包括:

    • 用户 Notebook 代码
    
    • 调度作业 Log
    

即使集群销毁,也可以重建集群轻松恢复数据

图片

EMR Studio Demo 演示:

参考文档:
https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

具体产品介绍及演示,,可以直接点击文章下方阅读原文观看视频,也可以扫描文章底部钉钉群二维码,进群观看直播回放哦!

END

阿里巴巴开源大数据技术团队成立交流社区,定期推送精彩案例,技术专家直播,问答区技术同学在线提问答疑,只为营造纯粹的技术交流氛围,欢迎钉钉扫码加入!

图片

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值