PiflowX-CSDN博客

原创 Spark流水线+Gravitino+Marquez数据血缘采集

是一个开放标准和框架，用于跨工具、平台和系统捕获数据血缘信息。它定义了通用的数据血缘模型和API，允许不同的数据处理工具（如ETL、调度器、数据仓库）以标准化格式生成血缘元数据。由Linux基金会托管，社区驱动，支持广泛的集成。Marquez是OpenLineage的参考实现，是一个开源元数据服务，专为数据血缘和元数据管理设计。由WeWork团队最初开发，现由社区维护，与OpenLineage深度集成。提供Web UI和API，用于存储、查询和可视化血缘信息。

2025-06-08 23:34:50 839

原创 Spark流水线集成Gravitino

它直接管理不同来源、类型和区域的元数据,为用户提供统一的数据和 AI 资产元数据访问接口。Gravitino 的目标是提供一个统一的元数据治理层，以统一的方式管理端到端的元数据，其中包括访问控制、审计、发现等功能。端到端数据治理意味着对数据从产生到使用的整个过程进行全面的管理和控制，确保数据的准确性、完整性、安全性和可用性。如将普通数据以及 AI 资产（如模型、特征等）的管理进行统一，实现一种统一的数据管理方式。，用户可以使用这些引擎来查询元数据和数据，而无需更改现有的 SQL 方言。

2025-05-28 20:04:10 986

原创 Flink流水线集成Gravitino

Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. It manages the metadata directly in different sources, types, and regions. It also provides users with unified metadata access for data and AI assets.（Apache Gravitino 是一

2025-05-25 07:51:56 805

原创数据同步DataX任务在线演示

访问系统登录页面，输入账号密码完成身份验证。

2025-05-12 20:23:45 245

原创 Spark流水线在线演示

访问系统登录页面，输入账号密码完成身份验证。点击任务名称，进入任务详情页。支持通过AI生成数据表结构。节点（模拟数据生成）。：通过顶部菜单栏选择。

2025-05-10 12:49:58 192

原创 Flink流水线任务在线演示

访问系统登录页面，输入账号密码完成身份验证。

2025-05-05 11:08:30 651 2

原创 flink faker + deepseek高效模拟数据

flink faker结合deepseek高效模拟数据。

2025-03-01 09:39:44 148

原创数据治理-数据标准演示

数据标准-业务字典映射。

2024-06-02 09:54:03 277

原创开源大数据流水线系统PiflowX本地开发调试

编译完成后，找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz，解压到指定目录。在资源管理中，上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成，会在项目下生成一个server.ip文件，文件内容为当前机器ip。在作业列表，可以看到刚刚创建的流水线任务，点击图中图标，进入设计界面。

2024-04-08 20:44:45 545

原创 PiflowX-Faker组件

根据每列提供的Data Faker表达式生成模拟数据。

2024-03-24 15:57:42 927

原创 PiflowX安装部署

说明：此项目仅限于交流学习使用。有诸多未完善的地方，敬请谅解！后续会逐步完善，欢迎一起交流学习。

2024-03-11 21:51:45 1035

原创 PiflowX-TopN组件

按列排序的N个最小值或最大值。

2024-03-08 20:16:00 604

原创 PiflowX-组件UnionAll

Union多个输入源。输入源必须具有相同的字段类型。

2024-02-20 21:19:01 388 2

原创 PiflowX新增Apache Beam引擎支持

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车，可惜 Google 在发布论文后并没有公布其源码，但是 Apache 开源社区蓬勃发展，先后出现了 Hadoop，Spark，Apache Flink 等产品，而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。

2024-02-05 22:13:04 1529

原创 PiflowX组件-OrderBy

ORDER BY组件使结果行根据指定的表达式进行排序。

2024-02-03 14:07:05 252

原创 PiflowX组件-FileWrite

往文件系统写入。

2024-01-28 22:28:04 453

原创 PiflowX组件-FileRead

FileRead组件可以读取指定路径的文件的内容，可以是本地路径，hdfs路径或者其他flink支持的文件系统的路径。

2024-01-28 21:25:01 546

原创 PiflowX-JdbcCatalog组件

通过JDBC协议将Flink连接到关系数据库,目前支持Postgres Catalog和MySQL Catalog。

2024-01-24 21:18:06 536

原创基于PiflowX构建MySQL和Postgres的Streaming ETL

说明：案例来自flink cdc官方。[[基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL]()]这篇文章将演示如何基于PiflowX快速构建 MySQL和Postgres的流式ETL。本教程的演示都将在WEB画布中进行，只需拖拉拽，无需一行Java/Scala代码，也无需安装IDE。

2024-01-21 17:45:10 1300

原创 PiflowX组件-PostgresCdc

Postgres CDC连接器允许从PostgreSQL数据库读取快照数据和增量数据

2024-01-21 14:11:27 566

原创 PiflowX组件-OracleCdc

Oracle CDC连接器允许从Oracle数据库读取快照数据和增量数据。

2024-01-20 21:04:37 618

原创 PiflowX组件 - Elasticsearch7Write

将数据写入到Elasticsearch-7引擎的索引中。

2024-01-17 21:40:10 505

原创 PiflowX如何快速开发flink程序

在了解了flink sql的定义后，一切便简单多了，那么，我们只需要根据业务需要，设计出一个表单输入，填写我们的业务参数，然后，由框架自动生成sql不就可以了么。可以看到，我们可以在此定义flink table中的表基本信息，物理列，元数据列，计算列，水印等，具体说明在此就不赘述了，以后会有具体文章来说明。至此，我们通过简单的表单填写，便可开发一个flink任务，最后，点击运行，系统便可自动提交到flink环境，并可实时查看运行日志，是不是很方便快捷！参数解释可以查看之前的文章（

2024-01-14 12:45:48 1309

原创 PiflowX-DorisWrite组件

往Doris存储写入数据。

2024-01-14 10:25:24 492

原创 PiflowX-DorisRead组件

从Doris存储读取数据。

2024-01-13 16:20:30 475

原创 PiflowX-MysqlCdc组件

MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。

2024-01-10 23:03:15 1441

原创 PiflowX-JdbcRead组件演示

PiflowX-JdbcRead组件演示。

2024-01-09 23:16:38 377

原创 PiflowX-DataGen演示

PiflowX-DataGen演示。

2024-01-07 22:14:16 359

原创 PiflowX组件 - Filter

Filter组件组件说明数据过滤。计算引擎flink组件分组common端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子conditioncondition“”无是过滤条件。age >= 50 or age < 20Filter示例配置{ "flow": { "name": "FilterTest", "uuid": "1234", "stops"

2024-01-07 21:40:28 399

原创 StreamPark + PiflowX 打造新一代大数据计算处理平台

PiFlow是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；

2024-01-05 22:46:12 1714 2

原创 PiflowX组件-JDBCWrite

使用JDBC驱动向任意类型的关系型数据库写入数据。

2024-01-01 21:39:29 712

原创 PiflowX组件-JDBCRead

使用JDBC驱动向任意类型的关系型数据库读取数据。

2024-01-01 21:38:05 492

原创 PiflowX组件-ReadFromUpsertKafka

upsert方式从Kafka topic中读取数据。

2024-01-01 11:52:54 1271

原创 PiflowX组件-WriteToUpsertKafka

以upsert方式往Kafka topic中写数据。

2024-01-01 11:37:42 1124

原创 PiflowX组件-WriteToKafka

将数据写入kafka。

2023-12-29 21:36:42 702

原创 PiflowX组件-ReadFromKafka

从kafka中读取数据。

2023-12-29 20:48:25 688

原创 PiflowX组件-DataGen

按数据生成规则模拟数据。在开发和演示场景下使用比较方便。具体可以查看Flink官方DataGen connector。

2023-12-28 20:54:59 538

原创 PiflowX大数据流水线系统

Piflow原生基于spark引擎，提供了100+的标准化组件，考虑到当前flink在流计算领域的广泛应用，所以开始基于Piflow扩展，使其同时支持spark和flink引擎。目前PiflowX已完成底层接口改造，顶层算子节点实现spark和flink共用一套接口，引擎实现侧则各自基于不同的引擎API实现。任务编辑，组件节点会通过任务类型加载不同引擎实现的算子节点，目前flink引擎实现了大概30个组件，还在不断扩展中。创建任务时，可选择计算引擎是spark还是flink，从而创建不同类型的计算任务。

2023-12-27 07:35:30 762

原创 Windows下Linkis1.5&DSS1.1.2本地调试

在 Linkis 源码文件夹下，子目录 linkis-dist/package/conf 中，是 Linkis 的一些默认配置文件，将配置文件复制到自己的配置文件目录，如D:\linkis\linkis-package\conf。3.linkis-spring-cloud-gateway模块添加linkis-gateway-server-support-1.5.0-SNAPSHOT.jar到classpath。创建数据库，并执行linkis数据库脚本，修改linkis.properties配置文件。

2023-12-05 21:00:00 1270

原创 windows下DSS界面本地集成linkis管理台

在 Linkis 源码文件夹下，子目录 linkis-dist/package/conf 中，是 Linkis 的一些默认配置文件，将配置文件复制到自己的配置文件目录，如D:\linkis\linkis-package\conf。3.linkis-spring-cloud-gateway模块添加linkis-gateway-server-support-1.5.0-SNAPSHOT.jar到classpath。启动服务，可正常启动，不过，在服务调用时，会报gatewayParsers空异常？

2023-11-28 22:00:00 1381 4

空空如也

空空如也