ETL的操作
-
E:抽取
1、抽取OLTP的数据 2、抽取日志数据 3、通过接口抽取第三方数据
-
T:转换
1、数据清洗 丢弃一些异常数据 处理一些脏数据 处理一些重复数据 2、数据的格式转换 日期: crate_time year month day 2022-12-23 --> 2022 12 23 2022-1-1 --> 2022-01-01 字符串转换: "path/list" --> path/list json数据 --> 解析
-
L:加载
1、全量加载 数据全部加载 2、增量加载 每次只加载新增或者修改数据
ETL 采集工具
-
Kettle
特点: 1:图形化操作 2:底层是Java 3: 支持集群 4: 数据量大时,性能一般
-
Nify
特点: 1:图形化操作 2:采集数据时会造成大量的IO操作,性能一般
-
Datax
特点: 1:单进程,多线程 2:不能支撑海量数据的迁移操作
-
Flume
特点: 1:主要用于实时操作 2: 底层是MapReduce
-
Sqoop(项目使用)
特点: 1:为Hadoop而生 2:底层是MapReduce 3:支撑大数据量的数据迁移工作