数据仓库之ETL简析

ETL是数据抽取、转换和加载的过程,用于处理大量业务数据。本文详细介绍了从数据抽取策略,如增量和全量拉取,到数据转换清洗的规则,再到数据加载到数据仓库。此外,还提到了常用的ETL工具,如kafka、flume和数据清洗工具,以及元数据管理的重要性。
摘要由CSDN通过智能技术生成

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
一般随着业务的发展扩张,产线也越来越多,产生的数据也越来越多,这些数据的收集方式、原始数据格式、数据量、存储要求、使用场景等方面有很大的差异。作为数据中心,既要保证数据的准确性,存储的安全性,后续的扩展性,以及数据分析的时效性,这是一个很大的挑战。

名词解释:

  • ODS——操作性数据
  • DW——数据仓库
  • DM——数据集市

image

image

​一、数据抽取

数据抽取是指把ODS源数据抽取到DW中,然后处理成展示给相关人员查看的数据

源数据:

  • 用户访问日志
  • 自定义事件日志、操作日志
  • 业务日志
  • 各服务产生的日志
  • 系统日志:操作系统日志,CDN日志等
  • 监控日志
  • 其它日志

抽取频次:

  • 如果没有特殊要求可以一天一次,但是需要避开拉去日志的高峰期
  • 对于有实时性要求的日志,可以一小时一次,或者直接使用kafka等相关工具收集,需要考虑到系统能否承受

抽取策略:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值