StreamSet学习（一）Pipeline Concepts and Design

最新推荐文章于 2023-04-20 16:55:00 发布

VIP文章 fengfengchen95

最新推荐文章于 2023-04-20 16:55:00 发布

阅读量1.6k

点赞数

分类专栏： Steamsets

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengfengchen95/article/details/84621584

版权

一、数据流的合并和分支

二、Dropping Unwanted Records

（1）required field可以在processor, executor, and most destination 节点，如果一个记录没人包含任何的必要字段那么这条记录将别丢给错误处理操作。

（2）Preconditions 前置条件，数据必须满足前置条件的情况下才能进入相关的步骤进行数据的处理。前置条件可以在processor, executor, and most destination 中使用，在前置条件中可以使用function,变量和运行时的属性

例如使用如下表达式排

${record:value('/COUNTRY') == 'US'}

三、Error Record Handling

record handling 可以在stage level 和 pipeline level进行定义，也可以将stage中定义的错误不进行处理，传给pipeline的错误处理。

stage中的错误处理机制会优先与pipeline的错误机制。

注意：缺少必要字段的记录将不会进入此stage,这些数据直接被pipeline的error handing进行处理

错误处理的常见方式：

pipeline error Handing

1.丢弃数据（discard） 2.写入管道（Write to Another Pipeline）：此模式需要自己创建SDC RPC origin pipeline 3.写入文件系统 4.写入kafka

stage error handing

1.丢弃数据（discard）2.将error发送到pipeline error handing（Send to Error）进行处理 3.停止pipeline(Stop Pipeline):停止pipeline并记录相关错误信息，停止管道打错误在管道历史记录中显示为error .注意：集群模式暂不支持此模式

四、Processing Changed Data（处理变化的数据）

Steamsets可以捕获数据的变化，比如增删改查。

1.常用CDC-enabled stages:

JDBC Query Consumer for Microsoft SQL Server

MySQL Binary Log

Oracle CDC Client

PostgreSQL CDC Client

SQL Parser，

SQL Server CDC Client，

SQL Server Change Tracking

2.CRUD enabled stages:

JDBC Tee processor

JDBC Producer destination

数据处理（processing the data），因为存储的log日志保存了不同格式的记录数据，使用 JDBC Tee processor and JDBC Producer能够解码大多数更改日志格式，从而根据原始更改日志生成记录数据。当使用其他的CRUD-enabled destinations，你需要添加其它stage用于处理数据格式

对应mysql的数据变更捕获：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
StreamSet学习（一）Pipeline Concepts and Design

一、数据流的合并和分支二、Dropping Unwanted Records （1）required field可以在processor, executor, and most destination 节点，如果一个记录没人包含任何的必要字段那么这条记录将别丢给错误处理操作。（2）Preconditions 前置条件，数据必须满足前置条件的情况下才能进入相关的...
复制链接

扫一扫

专栏目录

fengfengchen95 CSDN认证博客专家 CSDN认证企业博客

码龄7年

76: 原创

7万+: 周排名

199万+: 总排名

54万+: 访问

: 等级

3761: 积分

75: 粉丝

181: 获赞

41: 评论

672: 收藏

私信

关注

分类专栏

最新评论

Java List<Map>使用说明(转）
绿绿歌: 清晰有用
Yarn 上提交的job对应的sql查询
Python魔法师: 这是unicode格式，在线转换下就行
Sparksteaming每批次中到底有多少个RDD
怒赖佛祖: 赞，刚学习实时处理，头脑里装的还是对离线数据的处理，忘了数据源是流式数据了。
Yarn 上提交的job对应的sql查询
500@h: 有解决方法吗，我也遇到了
Yarn 上提交的job对应的sql查询
迷路剑客: 其他类型呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。