从Hive迁移到SparkSQL，有赞的大数据实践

最新推荐文章于 2024-07-13 16:23:56 发布

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

最新推荐文章于 2024-07-13 16:23:56 发布

阅读量360

点赞数

本文链接：https://blog.csdn.net/cpongo4/article/details/89118930

版权

前言

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：

有赞数据平台的整体架构。
SparkSQL 在有赞的技术演进。
从 Hive 到 SparkSQL 的迁移之路。

一. 有赞数据平台介绍

首先介绍一下有赞大数据平台总体架构：

如下图所示，底层是数据导入部分，其中 DataY 区别于开源届的全量导入导出工具 alibaba/DataX，是有赞内部研发的离线 Mysql 增量导入 Hive 的工具，把 Hive 中历史数据和当天增量部分做合并。DataX / DataY 负责将 Mysql 中的数据同步到数仓当中，Flume 作为日志数据的主要通道，同时也是 Mysql binlog 同步到 HDFS 的管道，供 DataY 做增量合并使用。

第二层是大数据的计算框架，主要分成两部分：分布式存储计算和实时计算，实时框架目前主要支持 JStorm，Spark Streaming 和 Flink，其中 Flink 是今年开始支持的；而分布式存储和计算框架这边，底层是 Hadoop 和 Hbase，ETL主要使用 Hive 和 Spark，交互查询则会使用 Spark，Presto，实时 OLAP 系统今年引入了 Druid，提供日志的聚合查询能力。

第三层是数据平台部分，数据平台是直接面对数据开发者的，包括几部分的功能，数据开发平台，包括日常使用的调度，数据传输，数据质量系统；数据查询平台，包括ad-hoc查询以及元数据查询。有关有赞数据平台的详细介绍可以参考往期有赞数据平台的博客内容。
　　
$\"image\"$

二. SparkSQL技术演进

从2017年二季度，有赞数据组的同学们开始了 SparkSQL 方面的尝试，主要的出发点是当时集群资源是瓶颈，Hive 跑任务已经逐渐开始乏力，有些复杂的 SQL，通过 SQL 的逻辑优化达到极限，仍然需要几个小时的时间。业务数据量正在不断增大，这些任务会影响业务对外服务的承诺。同时，随着 Spark 以及其社区的不断发展，Spark 及 Spark SQL 本身技术的不断成熟，Spark 在技术架构和性能上都展示出 Hive 无法比拟的优势。

从开始上线提供离线任务服务，再到 Hive 任务逐渐往 SparkSQL