开始
什么是流集数据收集器?
流集数据收集器断续器是一个轻量级、功能强大的设计和执行引擎,可实时流式传输数据。使用数据收集器路由和处理数据流中的数据。
若要定义数据流,请在数据收集器中设计一个管道。管道由表示管道的起点和目标的阶段以及要执行的任何其他处理组成。设计管道后,单击“开始”,数据收集器将开始工作。
数据收集器在数据到达源时对其进行处理,并在不需要时静默等待。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或仔细查看数据快照。
我应该如何使用数据收集器?
像使用数据流的管道一样使用流集数据收集器。在整个企业数据拓扑中,您都有数据流,您需要在前往目的地的途中移动、收集和处理这些数据流。数据收集器提供流中跃点之间的关键连接。
若要满足引入需求,可以使用单个数据收集器运行一个或多个管道。或者,您可以安装一系列数据收集器,以跨企业数据拓扑流式传输数据。
这到底是怎么回事?
让我们来看看它...
安装并启动数据收集器后,可以使用数据收集器 UI 登录并创建第一个管道。
您希望它做什么?假设您要从目录中读取 XML 文件并删除换行符,然后再将其移动到 HDFS 中。为此,请从目录源阶段开始,并将其配置为指向源文件目录。(您还可以将已处理的阶段存档文件和未完全处理的写入文件写入单独的目录以供审阅。
要删除换行符,请将 Directory 连接到表达式计算器处理器,并将其配置为从记录中的最后一个字段中删除换行符。
要使数据可供 HDFS 使用,请将表达式计算器连接到 Hadoop FS 目标阶段。您可以将阶段配置为将数据作为 JSON 对象写入(尽管您也可以使用其他数据格式)。
预览数据以查看源数据如何在管道中移动,并注意到某些字段缺少数据。因此,您可以添加一个字段替换器来替换这些字段中的空值。
现在,数据流已完成,您可以配置管道错误记录处理以将错误记录写入文件,创建数据偏移警报以告知您字段名称何时更改,并配置电子邮件警报以在管道生成超过 100 个错误记录时通知您。然后,启动管道,数据收集器开始工作。
数据收集器进入监视模式并立即显示摘要和错误统计信息。若要更仔细地查看活动,请拍摄管道的快照,以便检查一组数据如何通过管道。管道中看到一些意外数据,因此为两个阶段之间的链接创建数据规则,以收集有关类似数据的信息,并设置警报以在数字过高时通知您。
那么那些被写入文件的错误记录呢?它们与错误详细信息一起保存,因此您可以创建错误管道来重新处理该数据。瞧!
流集数据收集器是一个功能强大的工具,但我们正在使其尽可能简单易用。因此,请尝试一下,单击“帮助”图标以获取信息,如果需要帮助,请联系StreamSets。
什么是流集数据收集器边缘?
流集数据收集器边缘断续器 (SDC 边缘)是没有在边缘设备上运行管道的 UI 的轻量级执行代理。使用 SDC Edge 从边缘设备读取数据或从另一个管道接收数据,然后对该数据执行操作以控制边缘设备。
在数据收集器中设计边缘管道。边缘管道是在 SDC 边缘上以边缘执行模式运行的管道。
SDC 边缘与数据收集器分开安装。必须在要运行边缘管道的每个边缘设备上安装 SDC Edge。
有关使用 SDC 边缘的详细信息,请参阅满足流集数据收集器边缘。
什么是流集控制中心?
流集控制中心断续器是所有数据流管道的中心控制点。使用 Control Hub 允许您的团队大规模构建和执行大量复杂数据流。
数据工程师团队使用 Control Hub 提供的共享存储库以协作方式构建管道。Control Hub 提供管道的完整生命周期管理,允许您跟踪版本历史记录,并让您完全控制不断发展的开发过程。
通过 Control Hub,您可以在手动管理或自动预配的数据收集器上或使用数据收集器边缘的边缘设备上大规模部署和执行数据流。
您可以在单个可视拓扑中映射多个数据流,并可以查看实时统计信息,以测量每个拓扑(端到端或点对点)的数据流性能。还可以监视警报,以确保传入的数据满足可用性和准确性的业务要求。
要使用控制中心,您需要在组织内有一个用户帐户。如果已为企业定义了组织,请向组织管理员索要用户帐户。如果您无权访问组织,请与 StreamSet 联系,请求新组织。
有关使用控制中心的详细信息,请参阅满足流集控制中心。
在数据收集器中登录并创建管道
启动数据收集器后,可以登录到数据收集器并创建第一个管道。
您可以自定义用于访问数据收集器的地址和登录名。此过程使用默认设置。
- 要使用 UI 访问数据收集器,请在浏览器的地址栏中输入以下 URL:
<span style="color:#333333"><span style="background-color:#eeeeee"><code>http://<hostname>:18630/</code></span></span>
如果更改了数据收集器配置文件中的默认数据收集器端口号,请改用该号码。
$SDC_CONF/sdc.properties
- 在“登录”对话框中,使用以下凭据登录:
admin
/admin
。如果您创建了自定义登录名,请随时使用它。 - 在“入门”页上,单击“创建新管道”。
- 在“新建管道”窗口中,输入管道的名称,(可选)输入描述,然后单击“保存”。
此时将显示管道画布。“属性”面板显示管道属性。有关图标和区域的说明,请参阅 数据收集器 UI - 编辑模式。
有关配置管道的步骤,请继续执行“配置管道”中的步骤 3。
数据收集器用户界面
数据收集器提供基于 Web 的用户界面 (UI),用于配置管道、预览数据、监视管道和查看数据快照。
数据收集器 UI 包括以下常规区域和图标:
区域/图标 | 名字 | 描述: __________ |
---|---|---|
1 | 管道画布 | 用于配置、预览或监视管道的画布。 |
2 | “属性”面板 / “预览”面板 / “监视器”面板 | 配置管道时,“属性”面板将显示管道或选定阶段的属性。您可以调整面板大小,最小化和最大化面板。 预览数据时,“预览”面板将显示进入和退出所选阶段或阶段组的数据。它还可以显示舞台属性和预览配置。 监视正在运行的管道时,“监视”面板将显示实时指标和统计信息。
注意:某些图标和选项可能不会显示。显示的项目基于您正在执行的任务和分配给您的用户帐户的角色。
|
“流集控制中心”图标 | 提供有关流集控制中心的信息,并允许你向控制中心注册此数据收集器。 | |
主页图标 | 显示一个主页,其中包含管道及其状态的列表,允许您执行管道维护并导航到各个管道。 | |
“程序包管理器”图标 | 显示包管理器,它允许您为核心数据收集器安装安装其他阶段库。 | |
通知图标 | 显示通知。 | |
管理图标 | 提供对数据收集器配置属性、目录和日志的访问。还允许您关闭数据收集器。 | |
用户图标 | 显示活动用户和分配给该用户的角色。还允许您注销数据收集器。 | |
帮助图标 | 根据面板中的信息提供上下文相关帮助。允许您配置显示设置并指定是使用本地版本还是托管版本的帮助。 提供对 REST API 和数据收集器版本的访问。 | |
链接到管道列表 | 链接到主页上的管道列表。用于查看可用管道的列表,执行管道维护(如启动或共享管道),以及导航到各个管道。 | |
更多图标 | 为管道提供其他操作。 |
有关配置管道的信息,请参阅数据收集器 UI - 编辑模式。
有关数据预览选项的信息,请参阅数据收集器 UI - 预览模式。
有关管道监视选项的信息,请参阅数据收集器 UI - 监视模式。
配置显示
您可以配置数据收集器 UI 中的信息的显示方式,例如联机帮助版本、面板中的信息密度以及管道创建帮助栏。
- 在数据收集器 UI 的右上角,单击“帮助”>设置“。
- 在“设置”对话框中,可以配置以下选项:
显示设置 描述: __________ 时区 显示时区。用于在数据收集器 UI 中显示日期和时间,例如数据预览中的日期时间数据或快照数据。 您可以在以下选项之间进行选择:- 世界协调时
- 浏览器时区,通常使用操作系统时区。
- 当数据收集器在另一台计算机上运行时,即数据收集器计算机的操作系统时区。
显示密度 定义面板中显示的信息的密度。 帮助 定义数据收集器使用的帮助项目: - 本地帮助 - 使用随数据收集器安装的帮助项目。
- 托管帮助 - 使用流集网站上托管的帮助项目。托管帮助包含最新的可用文档。需要互联网连接。
默认值为托管帮助。当无法访问互联网时,数据收集器将使用本地帮助。
这两个帮助项目都提供上下文相关帮助。
隐藏管道创建帮助栏 隐藏管道配置帮助栏,该帮助栏在管道不完整时默认显示。 隐藏 REST 响应菜单 隐藏“REST 响应”菜单,以便您无法请求 REST API 响应信息。 在后台运行预览以显示可用字段 在后台运行预览以显示可用字段的列表,并在配置管道和阶段属性时显示“使用预览数据选择字段”选项。 如果预览产生大记录,则在后台运行预览可能会冻结浏览器。若要解决此问题,请清除该属性。
在属性中换行 换行您在属性中输入的长行文本。例如,在为阶段配置前提条件时,可能会输入一长行文本。 清除后,将显示带有滚动条的长文本行。
数据收集器 UI - 主页上的管道
数据收集器在主页上显示所有可用管道和相关信息的列表。可以选择管道的类别(如“运行管道”),以查看所有可用管道的子集。
当您或您的用户组对管道具有读取权限或创建管道时,管道将显示在主页上。
在主页上查看管道以执行管道维护,例如复制或共享管道。当您单击主页上顶级图标集中的“主页”图标 () 时,可以访问主页。在配置或监视管道时,还可以通过单击管道路径中的“管道”链接来访问主页。
下图显示了数据收集器主页:
区域/图标 | 名字 | 描述: __________ |
---|---|---|
1 | 管道库 | 与此数据收集器关联的管道库。
该库列出了:
|
2 | 管道列表 | 允许您选择一个或多个管道,然后对管道执行操作,如启动、停止或导出管道。 |
3 | 过滤器字段 | 允许您按名称筛选管道。 |
4 | 显示详细信息 | 显示有关列表中每个管道的错误消息和警报文本的详细信息。 |
“流集控制中心”图标 | 提供有关流集控制中心的信息,并允许你向控制中心注册此数据收集器。 | |
主页图标 | 显示一个主页,其中包含管道及其状态的列表,允许您执行管道维护并导航到各个管道。 | |
“程序包管理器”图标 | 显示包管理器,它允许您为核心数据收集器安装安装其他阶段库。 | |
通知图标 | 显示通知。 | |
管理图标 | 提供对数据收集器配置属性、目录和日志的访问。还允许您关闭数据收集器。 | |
用户图标 | 显示活动用户和分配给该用户的角色。还允许您注销数据收集器。 | |
帮助图标 | 根据面板中的信息提供上下文相关帮助。允许您配置显示设置并指定是使用本地版本还是托管版本的帮助。 提供对 REST API 和数据收集器版本的访问。 | |
“切换库窗格”图标 | 用于显示或隐藏管道库的图标。 | |
更多图标 | 为管道提供其他操作。用于重置管线的原点、向管线添加标签、导出管线以及显示管线 ID。 | |
刷新图标 | 刷新管道列表。 | |
删除图标 | 删除选定的管线。 | |
复制图标 | 复制选定的管线。 | |
“共享”图标 | 与用户和组共享管道。用于配置管道权限。 | |
“开始”图标 | 启动选定的管线。 | |
停止图标 | 停止选定的管线。 | |
“列表视图”图标 | 在列表中显示管道。 | |
“网格视图”图标 | 在网格中显示管线。 | |
错误图标 | 指示管道有错误。 | |
操作图标 | 允许您导入、导出、复制或删除单个管道。 |