美团是如何应用Spark处理大数据的？

最新推荐文章于 2024-01-25 01:52:18 发布

BAO7988

最新推荐文章于 2024-01-25 01:52:18 发布

阅读量578

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/BAO7988/article/details/103405529

版权

本文介绍了美团引入Spark的起源，基于Spark所做的一些平台化工作，以及Spark在美团具体应用场景下的实践。总体而言，Spark由于其灵活的编程接口、高效的内存计算，能够适用于大部分数据处理场景。

前言

美团最初的数据处理以Hive SQL为主，底层计算引擎为MapReduce，部分相对复杂的业务会由工程师编写MapReduce程序实现。随着业务的发展，单纯的Hive SQL查询或者MapReduce程序已经越来越难以满足数据处理和分析的需求。

一方面，MapReduce计算模型对多轮迭代的DAG作业支持不给力，每轮迭代都需要将数据落盘，极大地影响了作业执行效率，另外只提供Map和Reduce这两种计算因子，使得用户在实现迭代式计算(比如：机器学习算法)时成本高且效率低。

另一方面，在数据仓库的按天生产中，由于某些原始日志是半结构化或者非结构化数据，因此，对其进行清洗和转换操作时，需要结合SQL查询以及复杂的过程式逻辑处理，这部分工作之前是由Hive SQL结合Python脚本来完成。这种方式存在效率问题，当数据量比较大的时候，流程的运行时间较长，这些ETL流程通常处于比较上游的位置，会直接影响到一系列下游的完成时间以及各种重要数据报表的生成。

基于以上原因，美团在2014年的时候引入了Spark。为了充分利用现有Hadoop集群的资源，我们采用了Spark on Yarn模式，所有的Spark app以及MapReduce作业会通过Yarn统一调度执行。Spark在美团数据平台架构中的位置如图所示：

下面将介绍Spark在美团的实践，包括基于Spark所做的平台化工作以及Spark在生产环境下的应用案例。其中包含Zeppelin结合的交互式开发平台，也有使用Spark任务完成的ETL数据转换工具，数据挖掘组基于Spark开发了特征平台和数据挖掘平台，另外还有基于Spark的交互式用户行为分析系统以及在SEM投放服务中的应用，以下是详细介绍。

Spark交互式开发平台

在推广如何使用Spark的过程中，我们总结了用户开发应用的主要需求：

数据调研：在正式开发程序之前，首先需要认识待处理的业务数据，包括：数据格式，类型(若以表结构存储则对应到字段类型)、存储方式、有无脏数据，甚至分析根据业务逻辑实现是否可能存在数据倾斜等等。这个需求十分基础且重要，只有对数据有充分的掌控，才能写出高效的Spark代码;

代码调试：业务的编码实现很难保证一蹴而就，可能需要不断地调试;如果每次少量的修改，测试代码都需要经过编译、打包、提交线上，会对用户的开发效率影响是非常大的;

联合开发：对于一整个业务的实现，一般会有多方的协作，这时候需要能有一个方便的代码和执行结果共享的途径，用于分享各自的想法和试验结论。

基于这些需求，我们调研了现有的开源系统，最终选择了Apache的孵化项目Zeppelin，将其作为基于Spark的交互

最低0.47元/天解锁文章

BAO7988

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
美团是如何应用Spark处理大数据的？

本文介绍了美团引入Spark的起源，基于Spark所做的一些平台化工作，以及Spark在美团具体应用场景下的实践。总体而言，Spark由于其灵活的编程接口、高效的内存计算，能够适用于大部分数据处理场景。前言美团最初的数据处理以Hive SQL为主，底层计算引擎为MapReduce，部分相对复杂的业务会由工程师编写MapReduce程序实现。随着业务的发展，单纯的Hive SQL查询或者Ma...
复制链接

扫一扫