流集数据收集器最新消息

最新推荐文章于 2024-07-19 17:17:26 发布

JAVASoftEngineer

最新推荐文章于 2024-07-19 17:17:26 发布

阅读量107

点赞数 1

分类专栏：流集数据收集器大数据数据集文章标签：大数据 java

本文链接：https://blog.csdn.net/cao1234js/article/details/127388076

版权

最新消息

3.10.0 中的新增功能

数据收集器版本 3.10.0 包括以下新功能和增强功能：

起源

此版本包括以下新源：

Groovy 脚本 - 运行 Groovy 脚本以创建数据收集器记录。
脚本 - 运行脚本以创建数据收集器记录。
Jython 脚本 - 运行 Jython 脚本以创建数据收集器记录。
镍氢 HTTP 服务器 - 侦听来自 NiFi 处理器的请求并处理 NiFi 流文件。

此版本包括对以下来源的增强功能：

SQL 服务器 CDC 客户端 - 源现在具有两个新的记录标头属性：
- jdbc.cdc.source_schema_name- 存储源架构。
- jdbc.cdc.source_name- 存储源表。
此外，源不再需要您安装 JDBC 驱动程序。数据收集器现在包括微软 SQL Server JDBC 驱动程序。
SQL 服务器更改跟踪 - 源不再需要您安装 JDBC 驱动程序。数据收集器现在包括微软 SQL Server JDBC 驱动程序。

处理器

此版本包括对以下处理器的增强：

时髦的评估器、JavaScript 评估程序和 Jython 评估器 - 这些脚本处理器现在支持以下内容：
- 用户定义的参数 - 在“高级”选项卡上，输入参数和值。在脚本中，使用字典访问该值。sdc.userParams
- 全屏脚本编辑 - 将光标放在脚本字段中，按 F11 或 Esc 键（具体取决于您的操作系统）以切换全屏编辑。

目的地

此版本包括对以下目标的增强功能：

Cassandra - 目标有四个新属性，可帮助您调试目标问题：连接超时、读取超时、一致性级别和记录慢速查询。
兔子 MQ 创建者 - 目标具有新的“设置过期时间”属性，在“兔子 MQ”选项卡上设置 AMQP 消息属性时可用。清除“设置过期时间”属性以禁用目标发送的邮件的过期时间。

遗嘱执行人

此版本包括对以下执行程序的增强：

JDBC 查询 - 执行器现在可以并行运行查询以提高吞吐量。在“高级”选项卡上，选择“启用并行查询”属性，以使执行程序在与数据库的每个连接上同时运行查询。

数据格式

此版本包括对以下数据格式的增强：

分隔数据格式 - 现在可以指定数据收集器何时在生成的分隔数据中插入引号。当您为分隔数据选择自定义分隔符格式时，写入分隔数据的数据生成器处理器和目标在“数据格式”选项卡上包括新的“报价模式”属性。配置“报价模式”属性以生成引用所有字段、仅包含特殊字符的字段或不包含字段的数据。
Excel 数据格式 - 在读取 Excel 数据格式的源中，现在可以将源配置为从工作簿中的所有工作表或工作簿中的特定工作表读取。此外，还可以将源配置为跳过没有相应标头值的单元格。

表达式语言

此版本包括以下新的字段函数：

f:index()- 返回父列表字段中的索引。如果字段不在列表中，则返回 -1。
f:parentPath() - 返回父字段的路径。
f:parent()- 返回父字段。
f:getSiblingWithName(<name>)- 返回名称匹配的同级字段，如果该字段存在。<name>
f:hasSiblingWithName(<name>)- 如果存在名称匹配的同级字段，则返回。true<name>
f:hasSiblingWithValue(<name>, <value>)- 如果存在名称匹配且值匹配的同级字段，则返回该字段。true<name><value>

数据收集器配置

此版本包括以下数据收集器配置增强功能：

数据收集器配置文件 sdc.属性包含一个新的特定于阶段的属性，您可以在其中列出数据收集器自动为所有管道加载的 JDBC 驱动程序。stage.conf_com.streamsets.pipeline.stage.jdbc.drivers.load

舞台库

此版本包括以下阶段库增强功能：

新舞台库 - 此版本包括以下新舞台库：

舞台库名称	描述: __________
streamsets-datacollector-cdh_6_1-lib	对于 Cloudera CDH 版本 6.1 分发的阿帕奇哈多普。
streamsets-datacollector-cdh_6_2-lib	对于 Cloudera CDH 版本 6.2 分发的阿帕奇哈多普。
streamsets-datacollector-cdh_spark_2_3_r3-lib	适用于由 Spark 2.3 版本 3 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。
streamsets-datacollector-cdh_spark_2_3_r4-lib	适用于由 Spark 2.3 版本 4 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。

旧版舞台库 - 以下舞台库现在是旧版舞台库：

舞台库名称	描述: __________
streamsets-datacollector-hdp_2_6-lib	对于霍顿沃克斯版本2.6.x分发的阿帕奇哈多普。
streamsets-datacollector-hdp_2_6-flume-lib	对于霍顿沃克斯版本2.6.x版本的阿帕奇水槽。
streamsets-datacollector-hdp_2_6-hive2-lib	对于霍顿沃克斯版本2.6.x分发的阿帕奇蜂巢版本2.1。
streamsets-datacollector-hdp_2_6_1-hive1-lib	对于霍顿沃克斯版本2.6.1分发的阿帕奇蜂巢版本1.x。
streamsets-datacollector-hdp_2_6_2-hive1-lib	对于霍顿沃克斯版本2.6.2分发的阿帕奇蜂巢版本1.x。

超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做，但您仍然可以安装较旧的舞台库。

如果有使用这些旧阶段库的管道，则需要更新管道以使用更新的阶段库或安装旧阶段库。有关详细信息，请参阅使用旧版阶段库更新管道。

3.9.0 中的新增功能

数据收集器版本 3.9.0 包括以下新功能和增强功能：

起源

此版本包括对以下来源的增强功能：

Hadoop FS 独立和 MapR FS 独立 - 这些源包括以下选项卡和属性名称更改：
- “Hadoop FS”选项卡现在是“连接”选项卡。
- “Hadoop FS URI”属性现在是“文件系统 URI”属性。
- HDFS 用户属性现在是模拟用户属性。
- “Hadoop FS 配置目录”属性现在是“配置文件目录”属性。
- “Hadoop FS 配置”属性现在是“其他配置”属性。
与这些属性关联的功能未发生更改。
JDBC 多表使用者 - 当主键或用户定义的偏移量列是具有时区数据类型的 Oracle 时间戳并且每行具有相同的时区时，源现在支持使用多线程分区处理。
JMS 使用者 - 源现在支持从持久主题订阅读取消息，这些订阅一次只能有一个活动订阅者。
SFTP/FTP/FTPS 客户端 - 源站以前称为 SFTP/FTP 客户端，现在支持 FTP（通过 SSL 的 FTP）。现在，在选择不支持后处理的整个文件数据格式后，后处理处于禁用状态。

处理器

此版本包括以下新处理器：

库奇库查找 - 在库奇库服务器中查找文档，以使用数据丰富记录。

此版本包括对以下处理器的增强：

Groovy 赋值器、JavaScript 赋值器和 Jython 赋值器 - 在将“高级”选项卡上的新“记录类型”属性设置为“数据收集器记录”后，这些脚本处理器现在支持直接使用数据收集器记录。
Hive 元数据 - 处理器现在可以处理其本机格式的日期时间字段，也可以在处理数据之前将字段转换为字符串。默认情况下，处理器以本机格式处理日期时间字段。以前，处理器始终将日期时间字段转换为字符串。
日志分析器 - 处理器现在具有新的“数据格式”选项卡，其中包含与格式相关的属性。其中包括配置最大行长度、字符集和日志中原始行保留的新属性。对于 Grok 图案格式，处理器现在支持输入多个格罗克图案。对于 Log4j 格式，处理器现在具有用于配置对解析错误执行的操作的属性，以及可包含在日志记录中的堆栈跟踪的大小。

目的地

此版本包括以下新目标：

SFTP/FTP/FTPS 客户端 - 使用 SFTP、FTP 或 FTPS 将整个文件写入 URL。

此版本包括对以下目标的增强功能：

气动 - 目标现在可以使用 sdc.operation.type 记录标头属性中定义的 CRUD 操作来更新或删除数据。您可以为没有标头属性或值的记录定义默认操作。您还可以配置如何处理具有不受支持的操作的记录。
Azure 数据湖存储（旧版） - 目标（以前称为 Azure 数据湖存储）已重命名。数据收集器现在包括 Azure 数据湖存储第 1 代目标，该目标还会将数据写入微软 Azure 数据湖存储第 1 代。Azure 数据湖存储第 1 代目标是技术预览阶段。
沙发库 - 目标包括以下增强功能：
- 支持在记录标头属性中定义的 CRUD 操作以写入数据。您可以为没有标头属性或值的记录定义默认操作。您还可以配置如何处理具有不受支持的操作的记录。sdc.operation.type
- 支持写入子文档。
- 支持使用 Avro、二进制、分隔、JSON、原型布夫、SDC 记录和文本数据格式写入数据。
Hadoop FS 和 MapR FS - 这些目标包括以下选项卡和属性名称更改：
- “Hadoop FS”选项卡现在是“连接”选项卡。
- “Hadoop FS URI”属性现在是“文件系统 URI”属性。
- HDFS 用户属性现在是模拟用户属性。
- “Hadoop FS 配置目录”属性现在是“配置文件目录”属性。
- “Hadoop FS 配置”属性现在是“其他配置”属性。
与这些属性关联的功能未发生更改。
HBase - 目标现在可以在写入表之前跳过验证 HBase 中存在表的过程。默认情况下，目标验证表是否存在，这要求写入 HBase 的 HBase 用户具有 HBase 管理员权限。
您可能希望将目标配置为在不想向 HBase 用户授予 HBase 管理员权限时跳过验证。如果将目标配置为跳过验证，并且表不存在，则管道会遇到错误。以前，目标始终验证表是否存在。
Solr - 默认情况下，以下目标属性现在处于启用状态：
- 自动映射字段
- 忽略可选字段
以前，默认情况下，这两个属性都处于禁用状态。
Syslog - 已从“消息”选项卡中删除以下目标属性：
- 使用非文本消息格式
- 消息文本
现在，您将目标配置为使用“数据格式”选项卡上的文本数据格式。如果升级使用配置为使用文本数据格式的 Syslog 目标的管道，则必须完成更新 Syslog 管道中所述的升级后任务。

遗嘱执行人

此版本包括对执行程序的以下增强功能：

管道完成器 - 执行程序包括一个新的“重置偏移量”选项，可确保管道在每次管道运行时处理所有可用数据。

技术预览功能

数据收集器包括某些具有技术预览指定的新功能和阶段。技术预览版功能可用于开发和测试，但不适用于生产。

技术预览阶段在舞台图标上包含以下图像：。

当技术预览功能被批准在生产中使用时，发行说明和文档将反映更改，并且“技术预览”图标将从 UI 中删除。

此版本中提供了以下技术预览阶段：

Azure 数据湖存储 Gen1 源 - 从微软 Azure 数据湖存储 Gen1 读取数据。
Azure 数据湖存储 Gen2 源 - 从微软 Azure 数据湖存储 Gen2 读取数据。
Azure 数据湖存储 Gen1 目标 - 将数据写入 Microsoft Azure 数据湖存储 Gen1。
Azure 数据湖存储 Gen2 目标 - 将数据写入 Microsoft Azure 数据湖存储 Gen2。
ADLS 第 1 代文件元数据执行程序 - 在收到事件时，更改文件元数据、创建空文件或删除 Microsoft Azure 数据湖存储 Gen1 中的文件或目录。
ADLS Gen2 文件元数据执行程序 - 在收到事件时更改文件元数据、创建空文件或删除 Microsoft Azure 数据湖存储 Gen2 中的文件或目录。

管道

此版本包括以下管道增强功能：

“管道开始”菜单 - 数据收集器工具栏现在包括一个管道“开始”菜单，其中包含以下选项：
- 启动管道
- 重置源并启动
- 从参数开始
以前，“重置源和启动”选项不可用。“从参数开始”选项位于“更多”图标下。
生成的事件 - 对于生成事件的阶段，属性面板现在包括“生成的事件”选项卡，其中列出并描述了源可以生成的事件。

数据治理工具

此版本包括以下数据治理工具增强功能：

阿帕奇阿特拉斯版本 - 数据收集器现在可以将元数据发布到阿帕奇阿特拉斯版本1.1.0。

表达式语言

此版本包括以下新的时间函数：

time:extractNanosecondsFromString(<string>)- 将具有纳秒精度的字符串日期转换为以毫秒为单位的纪元或 UNIX 时间，然后使用以下格式添加纳秒：<milliseconds_from_epoch><n><nanoseconds>
例如，字符串将转换为。’29/05/2019 10:12:09.123456789’1559124729123<n>456789

数据收集器配置

此版本包括以下数据收集器配置增强功能：

天线医生 - 数据收集器现在包括天线医生，这是一个基于规则的引擎，建议潜在的修复和解决常见问题。需要时，您可以编辑数据收集器配置文件 sdc.属性，以禁用天线医生或禁用天线医生定期从 Internet 检索知识库更新。
旧版舞台库 - 程序包管理器现在可以安装旧版舞台库。
胸腺秘密服务器支持 - 数据收集器现在与胸腺秘密服务器凭据存储系统集成。

舞台库

此版本包括以下阶段库增强功能：

新舞台库 - 此版本包括以下新舞台库：

舞台库名称	描述: __________
streamsets-datacollector-cdh_5_16-lib	对于 Cloudera CDH 版本 5.16 分发的阿帕奇哈多普。
streamsets-datacollector-kinetica_7_0-lib	对于动能 7.0.
streamsets-datacollector-thycotic-credentialstore-lib	对于胸腺秘密服务器凭据存储系统。

旧版舞台库 - 以下舞台库现在是旧版舞台库：

舞台库名称	描述: __________
streamsets-datacollector-apache-kafka_0_11-lib	对于卡夫卡版本 0.11.x。
streamsets-datacollector-cdh_5_12-lib	对于 Cloudera CDH 版本 5.12 分发的阿帕奇哈多普。
streamsets-datacollector-cdh_5_13-lib	对于 Cloudera CDH 版本 5.13 分发的阿帕奇哈多普。
streamsets-datacollector-cdh_kafka_2_1-lib	对于阿帕奇卡夫卡2.1.x（0.9.0）的Cloudera发行版。
streamsets-datacollector-cdh_kafka_3_0-lib	对于阿帕奇卡夫卡3.0.0（0.11.0）的Cloudera发行版。
streamsets-datacollector-cdh-spark_2_1-lib	适用于由 Spark 2.1 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。
streamsets-datacollector-mapr_5_2-lib	对于映射器版本 5.2。

超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做，但您仍然可以安装较旧的舞台库。

如果有使用这些旧阶段库的管道，则需要更新管道以使用更新的阶段库或安装旧阶段库。有关详细信息，请参阅使用旧版阶段库更新管道。

数据收集器边缘新功能和增强功能

此数据收集器边缘（SDC Edge）版本包括以下方面的新功能和增强功能：

边缘管线中的起源

当您在数据收集器边缘管道中为 HTTP 服务器源启用 SSL/TLS 时，该源现在支持使用 PKCS #12 格式的密钥库文件。

边缘管道中的处理器

数据收集器边缘管道现在支持 HTTP 客户端处理器。

边缘管道中的目的地

数据收集器边缘管道现在支持 Azure 事件中心创建器和 Azure IOT 中心创建器目标。

3.8.0 中的新增功能

数据收集器版本 3.8.0 包括以下新功能和增强功能：

内存监控

在 3.8.0 版中，数据收集器内存监视已删除。默认情况下，内存监视处于禁用状态，并且仅在开发中用于解决特定问题。流集建议使用 JMX 或操作系统监视内存消耗。

如果在升级到 3.8.0 后为数据收集器启用了内存监视，则日志中将显示一条消息，指示不再支持内存监视。

作为此功能删除的一部分，进行了以下更改：

数据收集器配置属性已从数据收集器配置文件中删除。monitor.memory
还删除了两个相关的管道配置属性：“最大管道内存”和“超出内存时”。
两个相关的计数器统计信息不再可用：堆内存使用情况和阶段堆内存使用情况。

企业舞台库

企业阶段库仅出于开发目的而免费。有关购买舞台库以用于生产的信息，请联系 StreamSets。

在此版本中，您可以使用以下新的企业阶段库：

舞台库名称	描述: __________
streamsets-datacollector-oracle-lib	用于从静态 Oracle 表进行批量加载。包括甲骨文批量加载源。

起源

此版本包括对以下来源的增强功能：

开发原始数据源 - 开发源现在可以生成事件。
Hadoop FS 独立 - 源现在可以从使用 glob 模式指定的多个目录中读取文件。
Oracle CDC 客户端 - JDBC 读取大小属性已替换为以下新属性：
- 当前窗口的 JDBC 读取大小
- 过去窗口的 JDBC 提取大小
为了启用预期的行为，升级后的管道对新属性使用以前的 JDBC 提取大小配置。
REST 服务 - 除了 JSON 格式之外，源现在还可以生成 XML 格式的响应。
销售队伍 - 源现在支持 SOQL 查询中的聚合函数。
SFTP/FTP 客户端 - 源包括以下增强功能：
- 源现在支持在资源 URL 中使用电子邮件地址作为用户名。
- 原点现在支持使用 glob 模式或正则表达式来定义文件名模式。以前，原点仅支持球形模式。
- 配置为私钥身份验证时，源现在支持输入私钥文件的完整路径或以纯文本形式输入私钥。以前，源仅支持输入文件的完整路径。
- 处理完文件后，源现在可以保留、存档或删除该文件。
SQL Server CDC 客户端 - “最大事务长度”属性的默认值已更改为 “更改为选择不使用该属性。升级后的管道不受影响。${1*HOUR}-1
WebSocket 客户端 - 除了 JSON 格式之外，源现在还可以生成 XML 格式的响应。
网站托管服务器 - 除了 JSON 格式之外，源现在还可以生成 XML 格式的响应。

处理器

此版本包括以下新处理器：

字段映射器 - 将表达式映射到一组字段以更改字段路径、字段名称或字段值。

此版本包括对以下处理器的增强：

字段拼合器 - 拼合特定字段时，除了输入每个字段的路径外，处理器现在还支持使用预览数据选择字段。
Salesforce 查找 - 处理器现在支持 SOQL 查询中的聚合函数。
窗口聚合器 - 聚合器处理器已重命名为窗口聚合器处理器。

目的地

此版本包括对以下目标的增强功能：

Google 发布/订阅发布商 - 目标现在包含用于配置批处理的属性。
Solr - 目标现在可以直接将记录字段映射到 Solr 架构字段。

管道

此版本包括以下管道增强功能：

使用或不使用纯文本凭据的管道导出 - 数据收集器现在提供以下管道导出选项：
- 导出 - 从导出的管道中去除所有纯文本凭据。
- 使用纯文本凭据导出 - 包括导出管道中的所有纯文本凭据。
以前，数据收集器始终在导出的管道中包含纯文本凭据。
新的微服务原始响应 - 微服务管道中的源现在可以发送原始响应，将响应传递到源系统，而无需信封。
管线标签增强功能 - 现在可以在创建管线时在“新建管线”对话框中配置管线标签。与在早期版本中一样，您还可以在管道属性的“常规”选项卡上配置标签。

数据格式

此版本包括以下数据格式增强功能：

分隔 - 数据收集器现在支持在分隔数据中使用多字符字段分隔符。

数据收集器配置

此版本包括以下数据收集器配置增强功能：

保护配置文件中的敏感数据 - 现在可以保护数据收集器配置文件中的敏感数据，方法是将数据存储在外部位置，然后使用该函数调用检索数据的脚本或可执行文件。例如，您可以开发一个脚本来解密包含密码的加密文件。或者，您可以开发一个脚本来调用外部 REST API，以从远程保管库系统检索密码。exec
开发脚本后，使用数据收集器配置文件中的函数调用脚本或可执行文件，如下所示：exec
```
<code>${exec("<script name>")}</code>
```
AWS 密钥管理器支持 - 数据收集器现在与 AWS 密钥管理器凭证存储系统集成。

舞台库

此版本包括以下阶段库增强功能：

新舞台库 - 此版本包括以下新舞台库：

舞台库名称	描述: __________
streamsets-datacollector-aws-secrets-manager-credentialstore-lib	适用于 AWS 密钥管理器凭证存储系统。
streamsets-datacollector-hdp_3_1-lib	对于霍顿工厂3.1版。
streamsets-datacollector-mapr_6_1-lib	对于映射器版本 6.1.0。
streamsets-datacollector-mapr_6_1-mep6-lib	对于映射器 6.1.0，映射器生态系统包（MEP）版本 6。

旧版舞台库 - 以下舞台库现在是旧版舞台库：

舞台库名称	描述: __________
streamsets-datacollector-cdh_5_10-lib	对于 Cloudera CDH 版本 5.10 分发的阿帕奇哈多普。
streamsets-datacollector-cdh_5_11-lib	对于 Cloudera CDH 版本 5.11 分发的阿帕奇哈多普。

超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做，但您仍然可以下载并安装较旧的舞台库作为自定义舞台库。

如果管道使用这些旧阶段库，则需要更新管道以使用更新的阶段库或手动安装旧阶段库。有关详细信息，请参阅使用旧版阶段库更新管道。

数据收集器边缘新功能和增强功能

此数据收集器边缘（SDC Edge）版本包括以下方面的新功能和增强功能：

边缘管线中的起源

此版本包括以下源增强功能：

在边缘管线中，原点现在可以处理压缩文件。
目录原点现在支持边缘管道中的文件后处理。您现在可以配置错误目录，并且可以在处理后拥有源存档或删除文件。

边缘管道中的目的地

此版本包括以下目标增强功能：

边缘管道现在支持 Amazon S3 目标。
在边缘管道中，现在可以将卡夫卡创建者目标配置为通过 SSL/TLS 安全地连接到卡夫卡。

边缘管道中的数据格式

此版本包括以下数据格式增强功能：

边缘管道中包含的阶段现在仅列出边缘管道中支持的数据格式。
以下阶段现在可以处理包含在边缘管道中的二进制数据格式：
- 亚马逊 S3 目的地
- CoAP 客户端目标
- HTTP 客户端源和目标
- 服务器来源
- 卡夫卡生产者目的地
- 运动生产者目的地
- 订阅服务器来源和发布者目标
- 网页快照客户端来源和目标
现在，当整个文件数据格式包含在边缘管道中时，以下阶段可以处理它们：
- 亚马逊 S3 目的地
- 目录来源

3.7.0 中的新增功能

数据收集器版本 3.7.0 包括以下新功能和增强功能：

Microsoft Azure Support

在此版本中，现在可以使用 Hadoop FS 独立源从 Azure 数据湖存储读取数据。还可以使用 Hadoop FS 目标写入 Azure 数据湖存储。

如果需要使用 Azure 活动目录刷新令牌身份验证连接到 Azure 数据湖存储，或者想要在群集流式处理管道中写入 Azure 数据湖存储，请使用 Hadoop FS 目标。对于所有其他情况，请使用现有的 Azure 数据湖存储目标。

企业舞台库

企业阶段库仅出于开发目的而免费。有关购买舞台库以用于生产的信息，请联系 StreamSets。

此版本包括以下新的企业阶段库：

舞台库名称	描述: __________
streamsets-datacollector-memsql-lib	对于记忆。包括内存管理模式快速加载程序目标。
Streamsets-datacollector-Snowflake-lib	对于雪花。包括雪花目的地。
streamsets-datacollector-teradata-lib	对于泰瑞达。包括天睿消费者来源。

安装

在微软Azure上安装数据收集器 - 在微软Azure上安装数据收集器的过程已得到增强。数据收集器现在在部署资源后自动作为服务启动。您不再需要使用 SSH 登录到虚拟机即可运行数据收集器安装脚本，然后启动数据收集器。

起源

此版本包括以下新源：

天睿消费者来源 - 从多个天睿数据库表中读取数据。若要使用此源，必须安装 Teradata 阶段库。这是一个企业阶段库。

此版本包括对以下来源的增强功能：

Amazon S3 - 源现在可以创建多个线程，以便在多线程管道中启用并行处理。
开发数据生成器 - 开发源现在生成电子邮件，种族，性别和社会安全号码的虚假数据。
弹性搜索 - 源现在支持在使用亚马逊弹性搜索服务时使用 AWS 凭证进行身份验证。
Hadoop FS 独立 - 源现在支持从微软 Azure 数据湖存储读取数据。
卡夫卡消费者 - 原产地包括以下增强功能：
- 新的“自动偏移重置”属性确定当使用者组和主题没有存储以前的偏移量时在主题中读取的第一条消息。源可以从最早的消息、最新的消息或特定的时间戳读取。默认设置使源读取主题中的所有现有消息。
  在以前的版本中，默认情况下，源仅读取新消息。有关升级使用 Kafka 使用者源的管道的信息，请参阅更新使用 Kafka 使用者或 Kafka 多主题源的管道。
- 新的“包含时间戳”属性使您能够在记录标头中包含 Kafka 时间戳。
Kafka 多主题使用者 - 源包括一个新的“自动偏移重置”属性，该属性确定当使用者组和主题没有存储以前的偏移量时，在主题中读取的第一条消息。源可以从最早的消息、最新的消息或特定的时间戳读取。默认设置使源读取主题中的所有现有消息。
在以前的版本中，默认情况下，源仅读取新消息。有关升级使用 Kafka 多主题使用者源的管道的信息，请参阅更新使用 Kafka 使用者或 Kafka 多主题源的管道。
PostgreSQL CDC 客户端 - 源现在具有“复制槽”属性的新默认值：。此属性必须仅包含小写字母和数字。sdc
REST 服务 - 此微服务源现在支持 SSL 相互身份验证。
Salesforce - 源现在包括一种新的订阅类型：更改数据捕获。