Streamsets--一个流批一体的ETL工具

什么是StreamSets Data Collector?

StreamSets Data Collector是一个轻量级、强大的设计和执行引擎,可以实时处理流数据。使用Data Collector器来路由和处理数据流中的数据。

要定义数据流,需要在Data Collector中设计一个管道(pipeline)。管道由表示管道的起点和目的地的阶段以及希望执行的任何其他处理组成。在设计了管道之后,单击Start,Data Collector开始工作。

Data Collector在数据到达原点(origin)时处理数据,在不需要时静候。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或者查看数据快照。

如何使用StreamSets Data Collector?

使用StreamSets Data Collector,就像数据流的管道一样。在整个企业数据拓扑中,都有需要移动、收集和处理到目的地的数据流。Data Collector提供数据流各个阶段之间的关键连接。

要解决您的数据接入需求,您可以使用单个Data Collector来运行一个或多个管道。或者您可以安装一系列Data Collector,以便在企业数据拓扑中传输数据。

它究竟是如何工作的?

让我们一起来看看……

安装并启动Data Collector之后,使用数据收集器UI登录并创建第一个管道(pipeline)。

你想让它做什么?假设您希望从一个目录读取XML文件,并在将其移到HDFS之前删除换行符。为此,您从一个目录源阶段(stage)开始,并将其配置为指向源文件目录。(您还可以让stage归档已处理的文件,并将未完全处理的文件写入单独的目录以供查看。)

若要删除换行符,请将目录连接到表达式计算程序处理器(Expression Evaluator processor),并将其配置为从记录的最后一个字段中删除换行符。

要使数据对HDFS可用,需要将表达式求值器组件(Expression Evaluator)连接到Hadoop FS目标阶段。您可以配置stage以JSON对象的形式编写数据(当然也可以使用其他数据格式)。

预览数据以查看源数据如何通过管道移动,并注意到一些字段缺少数据。因此,您需要添加一个字段替换器组件(Field Replacer)来替换这些字段中的空值。

现在数据流已经完成。您配置了管道错误记录处理以将错误记录写入文件,您创建了一个数据漂移警报,以让您知道字段名称何时发生更改,并且您配置了一个电子邮件警报,以让您知道管道何时生成了100多个错误记录。然后,启动管道,Data Collector开始工作。

Data Collector进入监视模式,并立即显示汇总和错误统计信息。要更仔细地查看活动,可以对管道进行快照,以便检查一组数据是如何通过管道传递的。您会在管道中看到一些异常的数据,因此需要为两个阶段之间的链接创建一个数据规则,以收集类似数据的信息,并设置一个警报,以便在数字过高时通知您。

那么那些被写入文件的错误记录呢?它们与错误细节一起保存,因此您可以创建一个错误管道来重新处理数据。果不其然!

StreamSets Data Collector是一个强大的工具,但是我们使它使用起来尽可能简单。所以尝试一下,点击帮助图标获取信息,如果你需要帮助,请联系StreamSets。

什么是StreamSets Data Collector Edge?

StreamSets Data Collector Edge (SDC Edge)是一个轻量级执行代理,没有在Edge设备上运行管道的UI。使用SDC Edge从边缘设备读取数据或从另一个管道接收数据,然后对该数据进行操作以控制边缘设备。

在Data Collector中设计边缘管道。边缘管道是在SDC Edge上以Edge执行模式运行的管道。

SDC Edge是与Data Collector分开安装的。必须在希望运行边缘管道的每个边缘设备上安装SDC Edge。

有关使用SDC Edge的更多信息,请参见Meet StreamSets Data Collector Edge

什么是StreamSets Control Hub?

StreamSets Control Hub是所有数据流管道的中心控制点。使用Control Hub允许您的团队大规模地构建和执行大量复杂的数据流。

数据工程师团队使用Control Hub提供的共享存储库协作构建管道。Control Hub提供管道的完整生命周期管理,跟踪版本历史,并让您完全控制演进的开发过程。

Control Hub允许您在手动管理或自动提供的Data Collectors或使用Data Collectors Edge的边缘设备上大规模部署和执行数据流。

您可以在单个可视化拓扑中映射多个数据流,并可以查看实时统计数据,从端到端或点对点度量每个拓扑的数据流性能。您还可以监视警报,以确保传入的数据满足可用性和准确性的业务需求。

要使用Control Hub,您需要组织内的用户帐户。如果您已经为企业定义了一个组织,请向组织管理员请求一个用户帐户。如果您不能访问某个组织,请与StreamSets联系,请求一个新的组织。

有关使用Control Hub的更多信息,请参见Meet StreamSets Control Hub

注册StreamSets 帐户

没有企业帐户的用户必须向StreamSets帐户注册,才能下载和登录到Data Collector或Transformer。

您可以使用现有的谷歌或Microsoft帐户向StreamSets帐户注册。或者,您可以输入电子邮件地址和密码,然后检查您的电子邮件,以确认您的注册。注册后,您可以下载最新的Data Collector或Transformer tarball或访问Docker的最新Data Collector或Transformer映像。

安装Data Collector后,将其链接到StreamSets帐户。streamset帐户然后为Data Collector提供单点登录身份验证。

注意:拥有企业帐户的用户不应该使用streamset帐户。此外,通过云服务提供商市场安装Data Collector的用户不需要使用streamset帐户。

要注册或登录StreamSets帐户,请访问https://accounts.streamsets.com。

有关StreamSets帐户的详细信息,请参阅StreamSets Accounts

登录StreamSets并创建管道

启动Data Collector后,可以登录到Data Collector并创建第一个管道。

您可以自定义用于访问Data Collector的地址和登录。此过程使用默认设置。

  1. 要使用UI访问Data Collector,请在浏览器的地址栏中输入以下URL:

 

http://<hostname>:18630/

 

如果您更改了Data Collector配置文件($SDC_CONF/sdc.properties)中的默认Data Collector端口号,使用该数字代替。

  1. 登录方法取决于您使用的身份验证方法:

  • 当通过StreamSets Accounts使用单点登录时,您可能需要登录到StreamSets帐户。

  • 在使用Control Hub身份验证时,可能需要登录到Control Hub组织。

  • 在使用LDAP身份验证时,可能需要登录到LDAP服务器。

  • 在使用基于文件的身份验证时,可以使用以下凭据登录:admin / admin。

  • 如果您创建了一个自定义登录,请随意使用它。您还可以使用由Data Collector提供的任何其他用户。

  1. 在Get Started页面上,单击Create New Pipeline。

  2. 在New Pipeline窗口中,输入管道的名称,可选地输入描述,然后单击Save。

管道画布出现。属性面板显示管道属性。有关图标和区域的说明,请参见Data Collector UI -编辑模式

有关管道的更多信息,请参见什么是管道?

对于配置管道的步骤,请继续配置管道的步骤3

Data Collector用户界面

Data Collector提供了一个基于web的用户界面(UI),用于配置管道、预览数据、监视管道和查看数据快照。

Data Collector UI包括以下区域和图标:

 

 

区域/图标

 

名称

 

描述

 

1

 

管道画布

 

用于配置、预览或监视管道的画布。

 

2

 

属性面板/预览面板/监控面板

 

配置管道时,属性面板显示管道或所选阶段的属性。您可以调整面板的大小,最小化和最大化。

当您预览数据时,预览面板显示进入和退出所选阶段或阶段组的数据。它也可以显示stage属性和预览配置。

当您监视一个正在运行的管道时,监视器面板显示实时的度量和统计数据。

注意:一些图标和选项可能不会显示。显示的项基于您正在执行的任务和分配给用户帐户的角色。

 

 

 

StreamSets Control Hub图标

 

提供关于StreamSets Control Hub的信息,并允许您向控制Control Hub此Data Collector。

 

 

主页图标

 

显示带有管道及其状态列表的主页,允许您执行管道维护并导航到各个管道。

 

 

包管理器图标

 

显示包管理器,它允许您为核心或公共Data Collector组件安装附加的阶段(stage)库。

 

 

通知图标

 

显示通知。

 

 

管理图标

 

提供对Data Collector配置属性、目录和日志的访问。还允许您关闭Data Collector。

 

 

用户图标

 

显示活动用户和分配给该用户的角色。还允许您退出Data Collector。

 

 

帮助图标

 

根据面板中的信息提供上下文相关的帮助。允许您配置显示设置,并指定是否使用帮助的本地版本或托管版本。

提供对REST API和Data Collector版本的访问。

 

 

链接到一个管道列表页面

 

链接到主页上的管道列表。用于查看可用管道列表、执行管道维护(如启动或共享管道)以及导航到各个管道。

 

 

更多的图标

 

为管道提供其他操作。

 

有关配置管道的信息,请参见Data Collector UI - Edit Mode

有关数据预览选项的信息,请参见Data Collector UI - Preview Mode

有关管道监视选项的信息,请参见Data Collector UI - Monitor Mode

配置界面显示样式

您可以配置Data Collector UI中的信息如何显示,例如在线帮助版本、面板中的信息密度和管道创建帮助栏。

  • 在Data Collector UI的右上角,单击Help > Settings。

  • 在设置对话框中,您可以配置以下选项:

 

 

设置项

 

描述

 

Timezone(时区)

 

时区显示。用于在Data Collector UI中显示日期和时间,如数据预览或快照数据中的日期时间数据。

您可以选择以下选项:

  • UTC

  • 浏览器时区,通常使用操作系统时区。

  • 当Data Collector在另一台机器上运行时,Data Collector机器的操作系统时区。

 

Display Density(显示密度)

 

定义在面板中显示的信息密度。

 

Help

 

定义Data Collector使用的帮助项目:

  • 本地帮助——使用与Data Collector一起安装的帮助项目。

  • 托管帮助——使用托管在streamset网站上的帮助项目。托管帮助包含最新的可用文档。需要互联网连接。

默认情况下是托管帮助。当internet访问不可用时,Data Collector使用本地帮助。

这两个帮助项目都提供上下文敏感的帮助。

 

Hide Missing Stage Libraries in Stage Library Panel(在阶段库面板中隐藏缺失的阶段库)

 

隐藏没有安装在阶段库面板中的Data Collector阶段。

清除选择后,阶段库面板将显示所有Data Collector阶段,而不仅仅是已安装的阶段。未安装的阶段看起来是禁用的,或者是灰色的。

 

Hide Pipeline Creation Help Bar(隐藏管道创建帮助栏)

 

隐藏管道配置帮助栏,该帮助栏在管道未完成时默认显示。

 

Hide REST Response Menu(隐藏REST响应菜单)

 

隐藏REST响应菜单,因此您无法请求REST API响应信息。

 

Run preview in background to display available fields(在后台运行预览以显示可用字段)

 

在后台运行预览,在配置管道和stage属性时显示可用字段列表和带有预览数据选项的选择字段。

在后台运行预览会冻结浏览器,如果预览的结果包含大量的数据。要解决此问题,请清除该属性。

 

Wrap long lines in properties(在属性中换行)

 

对在属性中输入的长行文本进行换行。例如,在为一个阶段配置先决条件时,您可能会输入一长行文本。

清除后,用滚动条显示长行文本。

 

Data Collector UI -主页上的管道

Data Collector在主页上显示所有可用管道的列表和相关信息。您可以选择管道的类别,例如正在运行的管道,以查看所有可用管道的子集。

当您或您的用户组对管道具有读权限或创建管道时,管道将显示在主页上。

在主页上查看管道,以执行管道维护,例如复制或共享管道。当单击页面顶部图标集中的Home图标( )时,就可以访问主页。在配置或监视管道时,还可以通过单击管道路径中的pipeline链接访问主页。

下图显示了Data Collector的主页:

 

 

区域/图标

 

名称

 

描述

 

1

 

管道库

 

与此Data Collector关联的管道库。

库列表:

  • 管道类别——选择管道类别以按类别筛选列表中的管道。例如,可以通过所有正在运行的管道或所有边缘管道进行过滤。

  • 管道标签——选择一个管道标签,按标签过滤列表中的管道。

 

 

2

 

管道列表

 

允许您选择一个或多个管道,然后对管道执行操作,例如启动、停止或导出管道。

 

3

 

筛选字段

 

允许您按名称筛选管道。

 

4

 

显示明细

 

显示列表中每个管道的错误消息和警告文本的详细信息。

 

 

切换库窗格图标

 

图标,用于显示或隐藏管道库。

 

 

更多的图标

 

为管道提供其他操作。用于重置管道的起源、向管道添加标签、导出管道和显示管道id。

 

 

刷新图标

 

刷新管道列表。

 

 

删除图标

 

删除选定的管道。

 

 

复制图标

 

复制选定的管道。

 

 

共享图标

 

与用户和组共享管道。用于配置管道权限。

 

 

启动图标

 

启动选定的管道。

 

 

停止图标

 

停止选定的管道。

 

 

列表视图图标

 

在列表中显示管道。

 

 

网格视图图标

 

在网格中显示管道。

 

 

错误图标

 

指示管道有错误。

 

 

操作图标

 

允许您导入、导出、复制或删除单个管道。

 

有关配置管道的信息,请参见Data Collector UI - Edit Mode

有关数据预览选项的信息,请参见Data Collector UI - Preview Mode

有关管道监视选项的信息,请参见Data Collector UI - Monitor Mode

教程和示例管道

StreamSets提供了多个教程和示例管道来帮助您学习如何使用Data Collector。

本文档包括教程章节中的基本和高级教程。StreamSets在Github上提供了额外的教程。你也可以在YouTube的StreamSets频道上找到一组很棒的指南。

Data Collector包括几个示例管道。您可以使用这些管道浏览教程或作为新开发的基础。

 

一起学习Streamsets:

StreamSets是一款开源的数据流管道解决方案,适用于实时数据处理和ETL(Extract, Transform, Load)任务。它提供了一个可视化界面,使用户能够轻松地创建、管理和监控数据流管道。 StreamSets具有很多功能和优势。首先,它支持各种数据来源和目标,包括关系数据库、文件系统、消息队列等等,使用户能够方便地从各种数据源中获取数据并将其发送到目标位置。 其次,StreamSets提供了强大的数据转换和处理功能。用户可以使用内置的转换器和处理器来执行各种操作,如数据清洗、格式转换、过滤等等。此外,StreamSets还支持自定义转换器和处理器,以满足用户的特定需求。 另外,StreamSets具有很强的实时性能。它能够以非常低的延迟处理大量的数据,并且支持容错和高可用性,确保数据流管道的稳定和可靠性。 在使用StreamSets时,用户可以通过可视化界面轻松地创建和配置数据流管道。它提供了丰富的图形化组件和工具,使用户能够直观地理解和管理数据流。此外,StreamSets还提供了实时的监控和报警功能,用户可以随时了解管道的状态和性能。 总而言之,StreamSets是一款功能强大且易于使用的数据流管道解决方案。它能够帮助用户处理实时数据并实现ETL任务,提高数据处理的效率和可靠性。无论是在大数据领域还是传统数据处理领域,StreamSets都是一个值得考虑和尝试的工具
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值