StreamSets实战之路(五)-基础篇- StreamSets开启第一个数据流

主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在CentOS7上)。

1 数据准备阶段

  在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。

2 数据流设计阶段

(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Data Collect Pipeline,点击Save按钮。

  (2)完成第一步会进入数据流设计界面,如下图:

(3)首先从下图中的两个区域选择一个数据源插件,用于将外部数据源中的数据输入到Streamsets  中,这里我们选择一个简单的文件目录插件,并配置该插件,设置读取的文件目录、文件类型、输入到streamsets 中的文件格式,其他的配置参数先默认。

(4)从组件区,选择一个数据处理插件,这里选择JavaScript插件,并编写js脚本(将字段plugins中的每个记录),将上一个插件的输出和该插件的输入进行连接:

(5)再选择一个数据处理插件,将记录中不包含data字段的数据过滤掉,并将name字段为host的记录保留下来,最后将上一个插件的输出和该插件的输入进行连接:

(6)将满足条件1的数据记录进一步处理,不满足条件1的数据记录扔了;从组件选择区选择一个记录过滤插件和一个垃圾桶插件,并将上一个插件的1输出连接记录过滤插件,2输出连接垃圾桶插件;

配置记录过滤插件,保留记录中的三个字段:

(7)选择一个记录展开字段,将记录中/data字段的数据平铺

(8)再选择一个表达式插件,进行缺失值补充:

(9)从组件选择区将数据输出组件(这里选择本地文件系统插件)拖拉到数据流设计区,并配置数据处理目录和设置好数据输出格式,最后将处理好的数据存储在本地磁盘上:

3 数据流配置、验证和预览

(1)配置数据流,先选择数据流配置界面

在工作流配置区配置工作流,可以先默认配置,若是有别的需求,可以根据需求配置数据流。

(2)数据流验证和预览:点击小红框处,验证数据流

数据流验证成功后,点击数据流控制区的‘眼睛’按钮进行数据预览,可以进行单个组件的数据输入和输出和多个组件的数据对比。

4 数据流启动与监控

点击‘start’按钮启动工作流

启动数据流后可监控整数据流的数据处理效率,或监控单独组件的数据处理效率。

Streamsets实战之路正在更新中,尽情期待!!!

 

此文章为博主原创,转载请标明出处和原始链接,谢谢。

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值