数据传输
文章平均质量分 75
数据传输,使用Sqoop、Flume、Kafka、DataX、Kettle、Flink-CDC、Debezium等开源工具解决多源异构环境下离线和实时数据处理、数据入湖入仓情景的ETL问题。
shangjg3
这个作者很懒,什么都没留下…
展开
-
实时数据同步工具Maxwell
1Maxwell简介1.1 Maxwell概述Maxwell是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insertupdatedelete),并将变更数据以JSON格式发送给KafkaKinesi等流数据处理平台。1.2Maxwell输出数据格式插入更新删除注:Maxwell输出的json字段说明:字段解释database变更数据所属的数据库table。原创 2024-03-18 16:08:39 · 1132 阅读 · 0 评论 -
海豚调度(dolphinsheduler)离线安装
1. 简介1.1 DolphinScheduler 是什么Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。原创 2023-11-01 16:44:45 · 713 阅读 · 0 评论 -
Flume 整合 Kafka
以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力,这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计,具有高吞吐的特性,能很好地抗住峰值数据的冲击。这里我们监听一个名为 `kafka.log` 的文件,当文件内容有变化时,将新增加的内容发送到 Kafka 的 `flume-kafka` 主题上。5. 启动Flume。原创 2023-10-16 21:38:35 · 1178 阅读 · 0 评论 -
Flume 简介及基本使用
外部数据源以特定格式向 Flume 发送 `events` (事件),当 `source` 接收到 `events` 时,它将其存储到一个或多个 `channel`,`channe` 会一直保存 `events` 直到它被 `sink` 所消费。但是即使不按顺序启动也是没关系的,`sink` 会一直重试,直至建立好连接。`Sink` 的主要功能从 `Channel` 中读取 `Event`,并将其存入外部存储系统或将其转发到下一个 `Source`,成功后再从 `Channel` 中移除 `Event`。原创 2023-10-15 22:02:32 · 1041 阅读 · 0 评论 -
DataX 源码编译安装
编译DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。原创 2023-09-14 17:11:42 · 672 阅读 · 0 评论 -
DataX同步ClickHouse数据到Hive
需要把clickhousewriter/libs下的所有jar包复制到rdbmsreader/libs下,同名jar包直接替换,另外,删掉rm -f guava-r05.jar这个包,否则会报错。修改plugin.json文件:在"driver" 增加 "ru.yandex.clickhouse.ClickHouseDriver"在datax-web中创建任务生成json,也可以直接编辑json。由于Datax没有clickhousereader组件。1.2 hive中建表。原创 2023-09-15 17:20:51 · 931 阅读 · 0 评论