![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
文章平均质量分 67
登峰大数据
专注于研究大数据架构(流批一体数仓架构),阅读并分享最新的大数据书籍,学习笔记!平时喜欢写文章,发布到CSDN和公众号(登峰大数据)。
展开
-
Streamsets--一个流批一体的ETL工具_如何少踩坑?
生产环境中使用Streamsets DC近两年,实时数仓稳定运行近两年,为了让更多使用SDC的朋友不再经历使用SDC过程中遇到的各种坑,我将近两年的实时数仓 ETL开发经验录制成一套视频,原创 2021-06-17 17:44:02 · 1029 阅读 · 0 评论 -
实时数仓ETL高级特性实战-采集漂移数据到Hive和Impala
数据漂移,即数据结构和语义不断的计划外改变,是数据工程师长期面临的问题。模式更改可能会破坏集成,在最坏的情况下,会无声地在系统中传播坏数据,并导致基于错误分析做出决策。在过去,数据工程师必须手动对漂移做出反应——在输入的模式中寻找变化,手动修改Hive表,并重新提交修改过的数据接入作业。StreamSets数据收集器漂移同步特性通过近乎实时地自动创建和修改表来解决模式漂移问题,使数据立即准备好供终端用户使用。本教程将带领您为一个简单的用例设置漂移同步。场景是这样的:我们想要从关系数据库中的一个表中获原创 2021-04-26 16:44:16 · 354 阅读 · 0 评论 -
实时数仓ETL-数据流触发器
数据流触发器概述数据流触发器(Dataflow triggers)是事件框架用来启动任务以响应管道中发生的事件的指令。例如,当pipeline将文件写入HDFS后,可以使用数据流触发器启动MapReduce作业。或者,可以使用数据流触发器在JDBC Query Consumer origin处理完所有可用数据之后停止管道。事件框架由以下组件组成:event generation(事件产生)事件框架生成与管道相关的事件和与阶段相关的事件。事件框架仅在管道启动和停止时才生成管道事件。当特定的..翻译 2021-04-25 10:48:50 · 532 阅读 · 0 评论 -
Streamsets ETL 之 ClickHouse数据库
如何使用Streamsets这个大数据ETL工具读取ClickHouse数据库数据?如何使用Streamsets这个大数据ETL工具写入ClickHouse数据库数据?W X: bigdata_work原创 2021-04-19 14:00:23 · 1724 阅读 · 7 评论 -
Streamsets官方文档--Pipeline的概念和设计
管道概念与设计什么是管道?管道描述了从源头系统到目标系统的数据流,并定义了在此过程中如何转换数据。可以使用单个origin(初始)阶段表示源头系统,使用多个processor(处理器)阶段转换数据,使用多个destination(目标)阶段表示目标系统。在开发管道时,可以使用Development Stages(开发阶段)提供示例数据并生成错误以测试错误处理。您还可以使用data preview(数据预览)来确定阶段如何通过管道更改数据。可以使用executor阶段执行事件触发...翻译 2021-04-15 11:38:33 · 906 阅读 · 0 评论 -
Streamsets--一个流批一体的ETL工具
什么是StreamSetsData Collector?StreamSets Data Collector是一个轻量级、强大的设计和执行引擎,可以实时处理流数据。使用Data Collector器来路由和处理数据流中的数据。要定义数据流,需要在Data Collector中设计一个管道(pipeline)。管道由表示管道的起点和目的地的阶段以及希望执行的任何其他处理组成。在设计了管道之后,单击Start,Data Collector开始工作。Data Collector在数据到达原点(orig.翻译 2021-03-04 10:45:43 · 5273 阅读 · 3 评论