StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇

最新推荐文章于 2024-05-12 08:54:06 发布

阿龙学堂

最新推荐文章于 2024-05-12 08:54:06 发布

阅读量1.9w

点赞数 6

分类专栏： streamsets

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superzyl/article/details/79109061

版权

StreamSets数据收集器是一个强大的实时流数据引擎，用于构建数据流管道。本文介绍了如何配置和使用Data Collector，包括创建管道、处理数据、错误管理和监控。通过实例展示了从目录读取XML文件，删除换行符并写入HDFS的过程。

摘要由CSDN通过智能技术生成

什么是StreamSets数据收集器？

StreamSets 数据收集器是一个轻量级，强大的引擎，实时流数据。使用Data Collector在数据流中路由和处理数据。

要为Data Collector定义数据流，请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后，单击“开始”，“ 数据收集器”开始工作。

Data Collector在数据到达原点时处理数据，在不需要时静静地等待。您可以查看有关数据的实时统计信息，在数据通过管道时检查数据，或仔细查看数据快照。

我应该如何使用Data Collector？

使用StreamSets 数据收集器就像一个管道的数据流。在整个企业数据拓扑结构中，您都有需要移动，收集和处理到目的地的数据流。Data Collector提供流之间的关键连接。

为了解决您的采集需求，您可以使用单个Data Collector运行一个或多个管道。或者，您可能会安装一系列Data Collector来在您的企业数据拓扑中传输数据。

这是如何工作的？

让我们通过它...

安装并启动Data Collector之后，使用 Data Collector UI登录并创建第一个管道。

你想要做什么？假设您想从目录中读取XML文件，并在将其移入HDFS之前删除换行符。要做到这一点，你需要从一个目录原点阶段开始，并将其配置为指向源文件目录。（您也可以将舞台归档文件处理完毕并将未完全处理的文件写入单独的目录中供审阅。）

若要删除换行符，请将目录连接到表达式评估程序处理器，并将其配置为从记录的最后一个字段中删除换行符。

要使数据可用于HDFS，请将Expression Evaluator连接到Hadoop FS目标阶段。您可以将舞台配置为将数据作为

最低0.47元/天解锁文章

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
19
评论
StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇

什么是StreamSets数据收集器？StreamSets 数据收集器是一个轻量级，强大的引擎，实时流数据。使用Data Collector在数据流中路由和处理数据。要为Data Collector定义数据流，请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后，单击“开始”，“ 数据收集器”开始工作。Data Collector在数据到达原点时处理数据，
复制链接

扫一扫

专栏目录

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。