主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在CentOS7上)。
1 数据准备阶段
在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。
2 数据流设计阶段
(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Data Collect Pipeline,点击Save按钮。
(2)完成第一步会进入数据流设计界面,如下图:
(3)首先从下图中的两个区域选择一个数据源插件,用于将外部数据源中的数据输入到Streamsets 中,这里我们选择一个简单的文件目录插件,并配置该插件,设置读取的文件目录、文件类型、输入到streamsets 中的文件格式,其他的配置参数先默认。