![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
文章平均质量分 87
cuiyaonan2000
躬身入局,高在造势。 器不锐,可磨。 术不静,可学。 道不强,可悟。 法不高,可练。 时不逢,可待。谋事在人,成事在天。
展开
-
FLinkCDC
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到中以供其他服务进行订阅及消费。原创 2023-10-25 15:25:55 · 657 阅读 · 0 评论 -
HUDI概述
HUDI(Hadoop Upserts Deletes and Incrementals)是一个开源的数据湖工具,用于管理大规模数据湖中的数据。--------所以它是个中间层用于连接其它的存储服务与计算框架,数据库就是多种存储服务组成的存储服务,计算框架就多种计算框架的总和cuiyaonan2000@163.comHUDI旨在解决数据湖中常见的一些挑战,如数据的增量更新、删除和查询等。原创 2023-10-23 10:39:38 · 132 阅读 · 0 评论 -
数据仓库分层
从数据粒度来说是高度汇总的数据。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。原创 2023-10-20 10:37:56 · 85 阅读 · 0 评论 -
DataX: Ⅱ
这里使用的是master分支,因为官网上并没有release分支,所以先用master分支吧,可能会有问题cuiyaonan2000@163.com。原创 2023-09-26 16:04:51 · 231 阅读 · 0 评论 -
DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2023-09-25 17:16:37 · 205 阅读 · 0 评论 -
ChunJun: 自定义插件
从数据流的角度来看ChunJun,可以理解为不同数据源的数据流通过对应的ChunJun插件处理,变成符合ChunJun数据规范的数据流;脏数据的处理可以理解为脏水流通过污水处理厂,变成符合标准,可以使用的水流,而对不能处理的水流收集起来。----总的来说跟Flink的数据处理一样,只是增加了一个插件的概念用于处理不同的数据源,并生成对应的Flink任务cuiyaonan2000@163.com数据源本身读写数据的正确性;如何合理且正确地使用框架;配置文件的规范,每个插件都应有对应的配置文件;原创 2023-09-25 14:46:11 · 285 阅读 · 0 评论 -
ChunJun(OldNameIsFlinkX)
FlinkX将不同的数据源库抽象成不同的Reader插件,目标库抽象成不同的Writer插件,具有以下特点基于Flink开发,支持分布式运行;双向读写,某数据库既可以作为源库,也可以作为目标库;支持多种异构数据源,可实现MySQL、Oracle、SQLServer、Hive、Hbase等20多种数据源的双向采集。高扩展性,强灵活性,新扩展的数据源可与现有数据源可即时互通。应用场景FlinkX数据同步插件主要应用于大数据开发平台的数据同步数据集成模块,通常采用将底层高效的同步插件和。原创 2023-09-20 14:35:24 · 542 阅读 · 0 评论 -
DolphinScheduler
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。旨在解决复杂的大数据任务依赖关系并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。原创 2023-03-20 14:55:37 · 914 阅读 · 0 评论 -
大数据开发治理平台 DataWorks
结合业务过程的规划,梳理分析各业务过程中可能产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,您可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。----常用的类似于数据分层。这里的数仓规格通俗点讲是,给数据贴标签,根据数据的处理流程,业务分类,业务过程,数据域等分类方式来区分不同阶段,场景,业务等类型的数据,方便将来根据类型来查询数据。原创 2023-03-06 16:22:31 · 3346 阅读 · 0 评论 -
Senior Course Of Kettle
序言ETL:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程.对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,官网:kettle的基础概念入门、下载、安装、部署 – Kettle中文网原创 2021-09-14 15:35:37 · 242 阅读 · 0 评论