大数据开发平台(Data Platform)在有赞的最佳实践

最新推荐文章于 2023-05-24 09:50:15 发布

数据工程师金牛

最新推荐文章于 2023-05-24 09:50:15 发布

阅读量329

点赞数

分类专栏：大数据文章标签：大数据人工智能机器学习数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cqacry2798/article/details/87969596

版权

本文介绍了有赞大数据开发平台DP的系统设计，包括基于Airflow的调度模块，解决多入口、重复开发和运维成本等问题。DP支持离线数据同步、Hadoop任务、邮件导出等功能，目前每天调度7k+任务，服务多个产品线。

摘要由CSDN通过智能技术生成

前言

随着公司规模的增长，对大数据的离线应用开发的需求越来越多，这些需求包括但不限于离线数据同步(MySQL/Hive/Hbase/Elastic Search 等之间的离线同步)、离线计算(Hive/MapReduce/Spark 等)、定时调度、运行结果的查询以及失败场景的报警等等。

在统一的大数据开发平台产生之前，面临一系列的问题：

多个开发和调度入口，不同的业务部门之间的项目或组件很难复用，同时带来繁重的运维成本
Hadoop 的环境对业务团队的同事来讲不友好（除了要熟悉业务以外还需要对底层框架有比较深入的了解）
重复的开发工作（例如导表、调度等本来可以复用的模块，却需要在多个项目中重复实现）
频繁的跨部门需求沟通和讨论
互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群： 740041381就可以找到组织学习欢迎进阶中和进想深入大数据的小伙伴加入

为了解决上述遇到的各类问题，同时参考了业界其他公司的大数据解决方案，我们设计并实现了大数据开发平台（Data Platform，简称 DP），通过可视化的交互界面，解决离线大数据计算相关的各种环境和工具。

本文将介绍 DP 的系统设计以及在有赞的落地情况，内容包括：

DP 的系统设计，包括架构设计，以及重点介绍了调度模块的设计
目前在有赞的落地现状
总结和展望

大数据开发平台的设计

架构设计

图1 DP系统架构图

大数据开发平台包括调度模块（基于开源 airflow 二次开发）、基础组件（包括公共的数据同步模块/权限管理等）、服务层（作业生命周期管理/资源管理/测试任务分发/Slave管理等）和监控（机器资源/日志/基于预测的监控）。这些模块具体功能和职责为：

任务调度模块：支持基于任务优先级的多队列、分布式调

最低0.47元/天解锁文章

数据工程师金牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。