一、机缘
第一次了解、接触StreamX是在从前同事的朋友圈里看到的,当时被他转发的一个StreamX官网的宣传视频所震撼吸引。StreamX , Make Flink|Spark easier!,这是绝大多数数据开发者、入门者所期望的,那么既然有一个这么好的框架在这,有何理由不去仔细研读、探个究竟呢!!!
二、前言
随着近年来数据产业的不断蓬勃发展,技术框架的丰富化、多样化、成熟化,越来越多的数据产品也慢慢的呈现在开发者们的视野中。在大数据开发过程中,有时候开发可能不是难点,系统维稳管理、高效开发,可能才是一个数据团队的难题!有一个好的大数据开发平台,是数据开发者们的期望,大数据开发平台,数据开发者的利器,数据运维开发者的福音,数据平台在企业充当着开发、系统维稳的重要角色。从阿里的DataWorks到各大互联企业的自研的数据开发平台所谓是琳琅满目、丰富多彩!但这些平台要么是收费的,要么就是自己自研平台,仅供自己公司使用。市面上不容易找到一个开源的平台来支持公司的业务,提高开发管理效率。随着Flink近年来的飞速发展,一个好的数据开发平台来支持数据处理的流批一体化已是数据开发者的一种期盼。然而StreamX站出来了,一个朝气蓬勃的团队贡献的开源数据平台,可能你还没遇到它,也许第一眼就恋爱了!来,让我们一起来走入StreamX中吧!
三、为什么是StreamX
对于数据开发平台【主要考虑Flink的功能集成】,要么是收费的云项目,要么是自己团队的自研平台产品。如果是收费项目,不用多说,成本问题嘛。那如果是团队自研产品,首先要考虑自研的成本以及开发的难易程度,其一:如果是一个初创数据团队(团队规模如果不大),自研成本和难度还是很大的;其二:如果是对于有自研数据开发平台的数据团队来说,也面临着一个平台维稳,升级的成本问题,再者如果团队成员流动性大的话,那么数据平台的正常维护,升级对接也可能就成了一个问题。所以说如果有一个开源的活跃的项目来为数据团队提供一个成熟的数据开发平台,StreamX就是一个不错的选择,目前项目活跃,不断在更新迭代,越来越多的资源贡献者加入这个团队,为开发者们提供一个方便、快捷、稳定的大数据开发平台!
四、StreamX的探究
1、StreamX的介绍
实时即未来,在实时处理流域 Apache Spark 和 Apache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamX, 项目的初衷是 —— 让流处理更简单, 使用StreamX开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamX 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案。
2、StreamX-Features
- 开发脚手架
- 多版本Flink支持(1.11,x, 1.12.x, 1.13 )
- 一系列开箱即用的connectors
- 支持项目编译功能(maven 编译)
- 在线参数配置
- 支持
Applicaion模式,Yarn-Per-Job模式启动 - 快捷的日常操作(任务
启动、停止、savepoint,从savepoint恢复) - 支持火焰图
- 支持
notebook(在线任务开发) - 项目配置和依赖版本化管理
- 支持任务备份、回滚(配置回滚)
- 在线管理依赖(maven pom)和自定义jar
- 自定义udf、连接器等支持
- Flink SQL WebIDE
- 支持catalog、hive
- 任务运行失败发送告警邮件
- 支持失败重启重试
- 从任务
开发阶段到部署管理全链路支持 - …
3、StreamX的架构
Streamx`有三部分组成,分别是`streamx-core`,`streamx-pump` 和 `streamx-console

最低0.47元/天 解锁文章
1497

被折叠的 条评论
为什么被折叠?



