什么是StreamSets数据收集器?
StreamSets 数据收集器是一个轻量级,强大的引擎,实时流数据。使用Data Collector在数据流中路由和处理数据。
要为Data Collector定义数据流,请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后,单击“开始”,“ 数据收集器”开始工作。
Data Collector在数据到达原点时处理数据,在不需要时静静地等待。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或仔细查看数据快照。
我应该如何使用Data Collector?
使用StreamSets 数据收集器就像一个管道的数据流。在整个企业数据拓扑结构中,您都有需要移动,收集和处理到目的地的数据流。Data Collector提供流之间的关键连接。
为了解决您的采集需求,您可以使用单个Data Collector运行一个或多个管道。或者,您可能会安装一系列Data Collector来在您的企业数据拓扑中传输数据。
这是如何工作的?
让我们通过它...
安装并启动Data Collector之后,使用 Data Collector UI登录并创建第一个管道。
你想要做什么?假设您想从目录中读取XML文件,并在将其移入HDFS之前删除换行符。要做到这一点,你需要从一个目录原点阶段开始,并将其配置为指向源文件目录。(您也可以将舞台归档文件处理完毕并将未完全处理的文件写入单独的目录中供审阅。)
若要删除换行符,请将目录连接到表达式评估程序处理器,并将其配置为从记录的最后一个字段中删除换行符。
要使数据可用于HDFS,请将Expression Evaluator连接到Hadoop FS目标阶段。您可以将舞台配置为将数据作为