【博学谷学习记录】超强总结,用心分享|狂野大数据课程【ETL】的总结分析

ETL的操作

  • E:抽取

    1、抽取OLTP的数据
    2、抽取日志数据
    3、通过接口抽取第三方数据
    
  • T:转换

    1、数据清洗
      丢弃一些异常数据
      处理一些脏数据
      处理一些重复数据
    2、数据的格式转换
       日期:
            crate_time     year   month   day
           2022-12-23 -->  2022   12      23
           2022-1-1   -->  2022-01-01
       字符串转换: 
              "path/list"  -->  path/list
               json数据     -->  解析
    
  • L:加载

    1、全量加载
      数据全部加载
    2、增量加载
      每次只加载新增或者修改数据
    

ETL 采集工具

  • Kettle

    特点:
     1:图形化操作
     2:底层是Java
     3: 支持集群
     4: 数据量大时,性能一般
    
  • Nify

    特点:
     1:图形化操作
     2:采集数据时会造成大量的IO操作,性能一般
    
  • Datax

    特点:
     1:单进程,多线程
     2:不能支撑海量数据的迁移操作
    
  • Flume

    特点:
     1:主要用于实时操作
     2: 底层是MapReduce
    
  • Sqoop(项目使用)

    特点:
     1:为Hadoop而生
     2:底层是MapReduce
     3:支撑大数据量的数据迁移工作
    

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值