Streamsets data collector 操作手册

那小子、真烦

已于 2024-08-13 11:06:34 修改

阅读量2k

点赞数 3

分类专栏： java 操作手册 SDC 文章标签： sql json java kafka 大数据

于 2021-05-27 15:34:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31515997/article/details/117328650

版权

（整个流程涉及到的组件比较多，流程也有点复杂建议先看本人博客当中 Oracle CDC Client 实施步骤 (二) 实时同步数据）

1.简介

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：可视化界面操作，不写代码完成数据的采集和流转内置监控，可是实时查看数据流传输的基本信息和数据的质量强大的整合力，对现有常用组件全力支持，包括50种数据源、44种数据操作、46种目的地。对于Streamsets来说，最重要的概念就是数据(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等；Processors可以实现对每个字段的过滤、更改、编码、聚合等操作；Destinations跟Origins差不多，可以写入Kafka、Flume、JDBC、HDFS、Redis等

2.认识常见的SDC组件

1.Kafka Consumer 数据接收组件

2. 数据处理处理组件（如：日期转换）

3.JDBC Lookup 数据库查询组件

4.Field Remover 字段过滤组件

5.Stream Selector 数据判断分流组件

6.Trash 数据直接丢弃

7.Local FS 将数据写入磁盘的组件

8.JDBC Producer 数据库入库组件

3.流程（画流程图软件过期了）

1. 从kafka 集群中获取数据（数据结构：有字段 table，operation，timestamp，data）

2. 构建sdc记录

3.判断数据是否需要采集（通过data中的key与数据库进行匹配，查询是否需要采集）

4.否：直接trush

5.是：查询转换关系（比如一行映射成多行）

6.业务处理（获取指定定数据时间转换等等，比如：时间减一小时）

7.过滤不需要的字段

8.入库

4.根据上面的逻辑创建新的pipline

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAaGVsbG8uLg==,size_5,color_FFFFFF,t_70,g_se,x_16

5.选择组件，找到需要的组件直接拖动

最低0.47元/天解锁文章

那小子、真烦

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

那小子、真烦 CSDN认证博客专家 CSDN认证企业博客

码龄9年

46: 原创

4万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

1161: 积分

657: 粉丝

135: 获赞

18: 评论

215: 收藏

私信

关注

热门文章

分类专栏

操作手册 7篇
java 13篇
工具类 10篇
SDC 4篇
漏洞修复 1篇
KAFKA 4篇
centos 1篇
streamsts 1篇
keepalived 1篇
haproxy 1篇
mysql 1篇
架构师 1篇
http 1篇
redis 1篇

最新评论

浮点数计算
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
HttpUtil工具类
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
时间工具类
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Oracle CDC Client 实施步骤 (二) 实时同步数据
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
Oracle CDC Client 实施步骤 (二) 实时同步数据
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。