马铁大神的 Apache Spark 十年回顾

首先祝大家端午节快乐,幸福安康。

就在上周五, Apache Spark 3.0 全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章: Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析 。

Spark 是从 2010 年正式开源,到今年正好整整十年了!

一年一度的 Spark+AI SUMMIT 在本周正在如火如荼的进行。Apache Spark 的发明者马铁大神给我们带来了 Apache Spark 3.0 介绍:回顾 Spark 过去十年,以及未来展望

大神首先激情回顾了自己过去十年的情况,介绍了发明 Spark 的目的,以及后面几年 Spark 的发展。

Apache Spark 大概是从 2009年8月开始开发的

2010年 Spark 正式开源

2010-2011年期间开始有大量的用户使用,产生了许多预料之外的案例。

2012-2015年期间社区对 Spark 加了很多扩充,在语言支持上增加了 Python、R 以及 SQL 等;在类库上增加了 ML、图以及实时流处理功能;添加了许多高层次的 API。

今天,数砖公司的产品中 68% 的 notebook 命令都是使用 Python 写的。

超过 90% 的 Spark API 都是通过调用 Spark SQL 进行的,所以搞到最后 Spark SQL 才是最重要的东西,其底层的优化器为大多数作业进行优化。最近发布的 Spark 3.0 的 TPC-DS 测试性能比 Spark 2.4 提升近2倍,甚至比 Presto 还快!

数砖的产品每天处理5万亿条数据。

过去几年学到的经验:

  1. 产品的易用性很重要

  2. 支持最佳实践的 API

接下来马铁大神简单介绍了 Apache Spark 3.0 的新功能:感兴趣的同学也可以到过往记忆大数据的 Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析 去看看。

猜你喜欢

1、Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析

2、来自 Facebook 的 Spark 大作业调优经验

3、Apache Spark 在eBay 的优化

4、Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能

过往记忆大数据微信群,请添加微信:fangzhen0219,备注【进群】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值