- 博客(47)
- 收藏
- 关注
原创 Spark流水线+Gravitino+Marquez数据血缘采集
是一个开放标准和框架,用于跨工具、平台和系统捕获数据血缘信息。它定义了通用的数据血缘模型和API,允许不同的数据处理工具(如ETL、调度器、数据仓库)以标准化格式生成血缘元数据。由Linux基金会托管,社区驱动,支持广泛的集成。Marquez是OpenLineage的参考实现,是一个开源元数据服务,专为数据血缘和元数据管理设计。由WeWork团队最初开发,现由社区维护,与OpenLineage深度集成。提供Web UI和API,用于存储、查询和可视化血缘信息。
2025-06-08 23:34:50
839
原创 Spark流水线集成Gravitino
它直接管理不同来源、类型和区域的元数据,为用户提供统一的数据和 AI 资产元数据访问接口。Gravitino 的目标是提供一个统一的元数据治理层,以统一的方式管理端到端的元数据,其中包括访问控制、审计、发现等功能。端到端数据治理意味着对数据从产生到使用的整个过程进行全面的管理和控制,确保数据的准确性、完整性、安全性和可用性。如将普通数据以及 AI 资产(如模型、特征等)的管理进行统一,实现一种统一的数据管理方式。,用户可以使用这些引擎来查询元数据和数据,而无需更改现有的 SQL 方言。
2025-05-28 20:04:10
986
原创 Flink流水线集成Gravitino
Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. It manages the metadata directly in different sources, types, and regions. It also provides users with unified metadata access for data and AI assets.(Apache Gravitino 是一
2025-05-25 07:51:56
805
原创 Spark流水线在线演示
访问系统登录页面,输入账号密码完成身份验证。点击任务名称,进入任务详情页。支持通过AI生成数据表结构。节点(模拟数据生成)。:通过顶部菜单栏选择。
2025-05-10 12:49:58
192
原创 开源大数据流水线系统PiflowX本地开发调试
编译完成后,找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz,解压到指定目录。在资源管理中,上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成,会在项目下生成一个server.ip文件,文件内容为当前机器ip。在作业列表,可以看到刚刚创建的流水线任务,点击图中图标,进入设计界面。
2024-04-08 20:44:45
545
原创 PiflowX新增Apache Beam引擎支持
Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车,可惜 Google 在发布论文后并没有公布其源码,但是 Apache 开源社区蓬勃发展,先后出现了 Hadoop,Spark,Apache Flink 等产品,而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。
2024-02-05 22:13:04
1529
原创 PiflowX组件-FileRead
FileRead组件可以读取指定路径的文件的内容,可以是本地路径,hdfs路径或者其他flink支持的文件系统的路径。
2024-01-28 21:25:01
546
原创 PiflowX-JdbcCatalog组件
通过JDBC协议将Flink连接到关系数据库,目前支持Postgres Catalog和MySQL Catalog。
2024-01-24 21:18:06
536
原创 基于PiflowX构建MySQL和Postgres的Streaming ETL
说明:案例来自flink cdc官方。[[基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL]()]这篇文章将演示如何基于PiflowX快速构建 MySQL和Postgres的流式ETL。本教程的演示都将在WEB画布中进行,只需拖拉拽,无需一行Java/Scala代码,也无需安装IDE。
2024-01-21 17:45:10
1300
原创 PiflowX如何快速开发flink程序
在了解了flink sql的定义后,一切便简单多了,那么,我们只需要根据业务需要,设计出一个表单输入,填写我们的业务参数,然后,由框架自动生成sql不就可以了么。可以看到,我们可以在此定义flink table中的表基本信息,物理列,元数据列,计算列,水印等,具体说明在此就不赘述了,以后会有具体文章来说明。至此,我们通过简单的表单填写,便可开发一个flink任务,最后,点击运行,系统便可自动提交到flink环境,并可实时查看运行日志,是不是很方便快捷!参数解释可以查看之前的文章(
2024-01-14 12:45:48
1309
原创 PiflowX组件 - Filter
Filter组件组件说明数据过滤。计算引擎flink组件分组common端口Inport:默认端口outport:默认端口组件属性名称展示名称默认值允许值是否必填描述例子conditioncondition“”无是过滤条件。age >= 50 or age < 20Filter示例配置{ "flow": { "name": "FilterTest", "uuid": "1234", "stops"
2024-01-07 21:40:28
399
原创 StreamPark + PiflowX 打造新一代大数据计算处理平台
PiFlow是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志;
2024-01-05 22:46:12
1714
2
原创 PiflowX组件-DataGen
按数据生成规则模拟数据。在开发和演示场景下使用比较方便。具体可以查看Flink官方DataGen connector。
2023-12-28 20:54:59
538
原创 PiflowX大数据流水线系统
Piflow原生基于spark引擎,提供了100+的标准化组件,考虑到当前flink在流计算领域的广泛应用,所以开始基于Piflow扩展,使其同时支持spark和flink引擎。目前PiflowX已完成底层接口改造,顶层算子节点实现spark和flink共用一套接口,引擎实现侧则各自基于不同的引擎API实现。任务编辑,组件节点会通过任务类型加载不同引擎实现的算子节点,目前flink引擎实现了大概30个组件,还在不断扩展中。创建任务时,可选择计算引擎是spark还是flink,从而创建不同类型的计算任务。
2023-12-27 07:35:30
762
原创 Windows下Linkis1.5&DSS1.1.2本地调试
在 Linkis 源码文件夹下,子目录 linkis-dist/package/conf 中,是 Linkis 的一些默认配置文件,将配置文件复制到自己的配置文件目录,如D:\linkis\linkis-package\conf。3.linkis-spring-cloud-gateway模块添加linkis-gateway-server-support-1.5.0-SNAPSHOT.jar到classpath。创建数据库,并执行linkis数据库脚本,修改linkis.properties配置文件。
2023-12-05 21:00:00
1270
原创 windows下DSS界面本地集成linkis管理台
在 Linkis 源码文件夹下,子目录 linkis-dist/package/conf 中,是 Linkis 的一些默认配置文件,将配置文件复制到自己的配置文件目录,如D:\linkis\linkis-package\conf。3.linkis-spring-cloud-gateway模块添加linkis-gateway-server-support-1.5.0-SNAPSHOT.jar到classpath。启动服务,可正常启动,不过,在服务调用时,会报gatewayParsers空异常?
2023-11-28 22:00:00
1381
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人