本文来自于2018年11月3日在上海举办的上海Spark+AI第十五次聚会。分享者叶先进,百度智能云技术二部, 高级研发工程师, 目前专注于分布式计算方向. 参与 Baidu 内部的 MR/Spark 的计算引擎研发, 是 Spark 社区的开源贡献者。
Baidu 拥有世界领先规模的 Hadoop/Spark 集群, 目前 MR 集群在厂内仍有日均过 50P 级别的输入数据处理量. 但随着架构的变迁和 Spark 生态的不断成熟, MR 在内部正在逐渐被 Spark 生态替换. 本分享介绍百度计算团队推动 MR 迁移 Spark 的一些背景, 后面介绍了许多踩坑以及解决方案,值得大家学习。
立刻关注本微信公众号 iteblog_hadoop 并回复 mr_to_spark 关键字获取本文 PPT。
欢迎关注本公众号:iteblog_hadoop:
回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT
回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT
0、回复 电子书 获取 本站所有可下载的电子书
2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了
3、即将发布的 Apache Spark 2.4 都有哪些新功能
4、干货 | 深入理解 Spark Structured Streaming
5、Apache Spark 黑名单(Blacklist)机制介绍
6、Kafka分区分配策略(Partition Assignment Strategy)
8、干货 | Apache Spark 2.0 作业优化技巧
10、Flink Forward 201809PPT资料下载
11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档: http://flink.iteblog.com 13、Carbondata 中文文档: http://carbondata.iteblog.com