流集数据收集器配置:数据收集器配置

本文档介绍了如何配置数据收集器以使用Kerberos进行身份验证,保护配置文件中的敏感数据,以及如何配置发送电子邮件。详细阐述了在不同场景下启用Kerberos的步骤,包括RPM和压缩包安装以及使用Cloudera Manager。还讨论了保护敏感数据的方法,如从文件和脚本中检索,并解释了如何运行多个并发管道以及在Hadoop模拟模式下的配置选项。
摘要由CSDN通过智能技术生成

数据收集器配置

您可以编辑数据收集器配置文件 ,以配置电子邮件警报的主机名、端口号和帐户信息等属性。$SDC_CONF/sdc.properties

通过将数据存储在外部位置,然后使用随 StreamSets 表达式语言提供的函数检索数据,可以保护数据收集器配置文件中的敏感数据。还可以引用环境变量中的信息。

可以在数据收集器配置文件或单独的文件中定义运行时属性。有关更多信息,请参见使用运行时属性
重要:使用云端管理器安装数据采集器时,必须使用云传管理器配置数据采集器属性和环境。云端管理器无法识别对数据收集器属性或环境文件的手动更改。有关更多信息,请参阅 使用云端管理器配置数据收集器

Kerberos Authentication

您可以使用 Kerberos 身份验证连接到外部系统以及 YARN 群集。

默认情况下,数据收集器使用启动它的用户帐户连接到外部系统。启用 Kerberos 时,它可以使用 Kerberos 主体连接到外部系统。

您可以为以下阶段配置 Kerberos 身份验证:
  • 哈多普FS起源
  • 哈多普FS独立起源
  • 卡夫卡起源
  • 卡夫卡消费者起源
  • 卡夫卡多主题消费者起源
  • 映射器 FS 起源
  • 映射器FS独立起源
  • 从SDC RPC到卡夫卡原产地
  • UDP 到卡夫卡的起源
  • H 基本查找处理器
  • 配置单元元数据处理器
  • 卡桑德拉目标,当安装了数据斯塔克斯企业 Java 驱动程序时
  • 哈多普 FS 目的地
  • 总部基地目的地
  • 蜂巢元存储目标
  • 卡夫卡生产者目的地
  • 地图数据库目的地
  • 枫叶地图目的地
  • 索尔德目的地
  • HDFS 文件元数据执行器
  • MapR FS 文件元数据执行器
  • 地图还原执行器
  • 火花执行器

若要使数据收集器能够使用 Kerberos 身份验证,请使用安装类型所需的过程。

为 RPM 和压缩包启用 Kerberos

要为 RPM 或压缩包安装启用 Kerberos 身份验证,请执行以下步骤:

  1. 在 Linux 上,在数据收集器计算机上安装以下 Kerberos 客户端包:
    • krb5-工作站
    • krb5-client
  2. 将 Kerberos 配置文件 krb5.conf 复制到数据收集器计算机。默认位置为 /等/krb5.

    该文件包含 Kerberos 配置信息,包括 Kerberos 领域的关键分发中心 (KDC) 和管理服务器的位置、当前领域的默认值以及主机名到 Kerberos 领域的映射。krb5.conf

  3. 将数据收集器配置为根据阶段类型使用 Kerberos。如果同时为卡夫卡和非卡夫卡阶段启用 Kerberos,请使用这两种方法。
    • 非 Kafka 阶段 - 要为非 Kafka 阶段启用 Kerberos,请通过修改数据收集器配置文件将数据收集器配置为使用 Kerberos。数据收集器对每个阶段使用相同的 Kerberos 主体。在文件中配置以下 Kerberos 属性以启用 Kerberos 并定义主体和密钥表:$SDC_CONF/sdc.properties
      • kerberos.client.enabled
      • kerberos.client.principal
      • kerberos.client.keytab
      重要:对于群集管道,请在配置数据收集器时输入密钥表的绝对路径。独立管道不需要绝对路径。
    • Kafka 阶段 - 要为 Kafka 阶段启用 Kerberos,请在数据收集器将阶段配置为使用 Kerberos 时使用的 Java 认证和授权服务 (JAAS) 配置文件中配置 Kerberos 属性。您可以将每个卡夫卡阶段配置为使用不同的 Kerberos 主体。
  4. 重新启动数据收集器。
  5. 将舞台配置为使用 Kerberos。
    注意:如果 YARN 群集需要 Kerberos 身份验证,并且数据收集器启用了 Kerberos 身份验证,则群集管道会自动使用它。

使用 Cloudera 管理器启用 Kerberos

要为 Cloudera 管理器安装启用 Kerberos 身份验证,请使用 Cloudera 管理器。

当您通过 Cloudera 管理器启用 Kerberos 时,Cloudera 管理器将创建所需的 Kerberos 主体和密钥表。

  1. 在云端管理器中,选择流集服务,然后单击配置
  2. 选择“启用 Kerberos 客户端”
  3. 在 Cloudera 管理器主页中,单击管理> 安全性
  4. 单击“Kerberos 凭据”
  5. 单击“生成缺少的凭据”
  6. 重新启动数据收集器。
  7. 将舞台配置为使用 Kerberos。
    注意:如果 YARN 群集需要 Kerberos 身份验证,并且数据收集器启用了 Kerberos 身份验证,则群集管道会自动使用它。

发送电子邮件

您可以配置电子邮件配置属性,以使数据收集器能够发送电子邮件通知。

在数据收集器边缘管道中无效。数据收集器边缘管道不发送电子邮件。

对于数据收集器管道,数据收集器可以通过以下方式发送电子邮件:
  • 电子邮件警报 - 在触发启用电子邮件的警报时(例如,当达到错误记录阈值时)发送基本电子邮件。
  • 管道通知 - 当管道状态更改为指定状态时发送基本电子邮件。例如,当管道转换为“Run_Error”或“已完成”状态时,可以使用管道通知发送电子邮件。
  • 电子邮件执行程序 - 在从事件生成阶段接收事件时发送自定义电子邮件。在事件流中使用以发送用户定义的电子邮件。您可以包含表达式以在电子邮件中提供有关管道或事件的信息。

    例如,可以使用电子邮件执行程序在收到来自 Hive Query 执行程序的失败查询事件时发送电子邮件,并且可以在邮件中包含失败的查询。

若要启用发送电子邮件,请在数据收集器配置文件中配置 mail.transport.protocol 属性,然后配置 smtp/smtps 属性和 xmail 属性。有关详细信息,请参阅配置数据收集器

保护配置文件中的敏感数据

通过将数据收集器配置文件中的敏感数据存储在外部位置,然后使用 或 函数检索数据,可以保护这些数据收集器配置文件中的敏感数据。fileexec

数据收集器配置文件包括  $SDC_CONF/sdc.properties 文件和数据收集器配置中包含的任何其他文件,如以下文件:
  • 属性
  • 库属性
  • 凭据存储属性

某些配置文件属性(如 属性)要求您输入密码。无需在配置文件中以明文形式输入密码,而是可以将密码存储在配置文件外部,然后使用 or 函数检索敏感数据。https.keystore.passwordfileexec

您可以使用函数通过以下方式检索敏感数据:

从文件

将敏感数据存储在单独的文件中,然后使用配置文件中的函数检索数据,如下所示: file
<span style="color:#333333"><span style="background-color:#eeeeee"><code>${file("<filename>")}</code></span></span>
例如,如果按如下方式配置该属性,则数据收集器将从位于数据收集器配置目录  email_username.txt文件中检索用户名: xmail.username $SDC_CONF
<span style="color:#333333"><span style="background-color:#eeeeee"><code>xmail.username=${file("email_username.txt")}</code></span></span>

从另一个文件中检索敏感数据可提供一定程度的安全性。但是,附加文件中的敏感数据仍以明文形式输入,因此容易受到其他人访问的攻击。为了提高安全性,请使用脚本或可执行文件来检索敏感数据。

使用脚本或可执行文件

为了提高安全性,请开发从外部位置检索敏感数据的脚本或可执行文件。例如,您可以开发一个脚本来解密包含密码的加密文件。或者,您可以开发一个脚本来调用外部 REST API,以从远程保管库系统检索密码。

使用配置文件中的函数调用脚本或可执行文件,如下所示: exec
<span style="color:#333333"><span style="background-color:#eeeeee"><code>${exec("<script name>")} </code></span></span>
例如,如果按如下方式配置该属性,则数据收集器将运行 email_pwd.sh脚本来检索密码: xmail.password
<span style="color:#333333"><span style="background-color:#eeeeee"><code>xmail.password=${exec("email_pwd.sh")}</code></span></span>

使用 或 函数时,数据收集器将使用文件或脚本的确切输出。因此,如果输出生成密码,然后生成换行符,则数据收集器会将该值与换行符一起使用。这会导致数据收集器使用无效的密码。请仔细设计和测试如何定义文件或脚本的输出,以确保函数仅返回预期的敏感数据。fileexec

从文件中检索敏感数据

使用配置文件中的函数从本地文件中检索敏感数据。file

您可以将一条信息存储在文件中。当数据收集器启动时,它会从引用的文件中检索敏感数据。

  1. 为要保护的每个配置值创建一个文本文件。每个文件中仅包含一个配置值。
    确保文件不包含敏感数据后面的多余字符,如换行符。例如,您可以运行以下命令以确保文件不包含换行符:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>echo -n '<password>' > password-file.txt</code></span></span>
  2. 将文件保存在数据收集器可以访问的本地目录中。

    对于数据收集器的 Cloudera 管理器安装,请确保将文件保存在数据收集器配置目录 之外,因为当数据收集器重新启动时,配置目录会发生变化。对于所有其他数据收集器安装,可以将文件保存在配置目录中,然后在使用该函数时只需输入文件名即可。$SDC_CONFfile

  3. 在配置文件中,将相关值设置为 file 函数以及相应的文件路径和名称。
    对于数据收集器的 Cloudera 管理器安装,请输入文件的绝对路径,如下所示:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JAVASoftEngineer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值