主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在CentOS7上)。
1 数据准备阶段
在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。
2 数据流设计阶段
(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Data Collect Pipeline,点击Save按钮。

(2)完成第一步会进入数据流设计界面,如下图:
本文详细介绍了如何使用StreamSets创建第一个数据流,从数据准备到设计阶段,包括设置数据源、使用JavaScript插件处理数据、过滤和输出到本地磁盘。在CentOS7上运行的StreamSets通过数据流将本地JSON文件处理后存储至另一目录。
订阅专栏 解锁全文
902

被折叠的 条评论
为什么被折叠?



