streamsets-~~~

https://streamsets.com/documentation/datacollector/3.5.2/help/datacollector/UserGuide/Getting_Started/GettingStarted_Title.html#concept_htw_ghg_jq

https://www.cnblogs.com/fangxuanlang/category/1633463.html

1.   管道概念和设计

1.1. 设计数据流

你能在 pipeline 中分支或者合并一个数据流.

1.1.1.     数据流分叉

When you connect a stage to multiple stages, all data passes to all connected stages. You can configure required fields for a stage to discard records before they enter the stage, but by default all records are passed.

For example, 下面的管道,从目录中的所有数据,穿戴2个分支去处理, ,但是你可以配置必要的字段,便于分割,或者替代不需要的记录.

 

 

 

对于更复杂的条件,路由数据通过 stream selector.

某些状态产生事件,到事件流。事件流

Some stages generate events that pass to event streams. Event streams originate from an event-generating stage, such as an origin or destination, and pass from the stage through an event stream output, as follows:

 

 

 

 

For more information about the event framework and event streams, see Dataflow Triggers Overview.

1.1.2.     合并流

在一个管道中,可以合并2步或更多步 流到 下一个状态. 当合并数据时, Data Collector 传递 所有流到相同的  阶段,但是并不 合并记录.

For example, 下面例子中, the Stream Selector 阶段  sends "空值"  到 Field Replacer 阶段:

 

 

 

 

The data from the Stream Selector default stream and all data from Field Replacer pass to Expression Evaluator for further processing, but in no particular order and with no record merging.

Important: Pipeline validation does not prevent duplicate data. To avoid writing duplicate data to destinations, configure the pipeline logic to remove duplicate data or to prevent the generation of duplicate data.

Note that you cannot merge event streams with data streams. Event records must stream from the event-generating stage to destinations or executors without merging with data streams. For more information about the event framework and event streams, see Dataflow Triggers Overview.

 

.....持续可看首行地址..........

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
StreamSets是一种开源的数据操作平台,用于构建、执行和监视数据流。要安装和配置StreamSets,可以按照以下步骤进行操作: 1. 下载StreamSets:可以在官方网站上下载最新版本的StreamSets。选择适合您操作系统的版本,并将其下载到本地。 2. 安装StreamSets:解压下载的文件,并将其安装到您选择的目录中。例如,您可以将其解压到/opt目录下。 3. 配置StreamSets:打开解压后的StreamSets文件夹,并编辑配置文件。配置文件通常位于conf文件夹中,其中最重要的是sdc.properties和sdc-log4j.properties。您可以根据您的需求配置这些文件,例如指定日志文件的路径、端口号等。 4. 启动StreamSets:使用命令行进入StreamSets的安装目录,并运行启动脚本。例如,可以运行./streamsets dc启动StreamSets。 5. 访问StreamSets:一旦StreamSets成功启动,您可以通过在浏览器中输入http://localhost:18630来访问StreamSets的用户界面。请确保防火墙没有阻止该端口的访问。 6. 配置数据源和目标:在StreamSets的用户界面中,您可以通过添加、配置数据源和目标来定义您的数据流。可以根据您的需求选择不同的数据源和目标,例如MySQL、Hadoop等。 7. 构建数据流:使用StreamSets的可视化界面,您可以构建数据流。您可以将不同的数据源连接到不同的目标,定义数据的处理方式,并配置数据传输的频率等。 8. 运行数据流:一旦您构建好数据流,您可以选择运行它。StreamSets将根据您的配置从数据源中读取数据,并将其传输到目标中。您可以监视运行状态,查看数据处理的日志等。 总之,StreamSets的安装和配置包括下载、安装、编辑配置文件、启动和访问StreamSets、配置数据源和目标、构建和运行数据流等步骤。这些步骤可以帮助您开始使用StreamSets来处理和传输数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值