ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
一般随着业务的发展扩张,产线也越来越多,产生的数据也越来越多,这些数据的收集方式、原始数据格式、数据量、存储要求、使用场景等方面有很大的差异。作为数据中心,既要保证数据的准确性,存储的安全性,后续的扩展性,以及数据分析的时效性,这是一个很大的挑战。
名词解释:
- ODS——操作性数据
- DW——数据仓库
- DM——数据集市
image
image
一、数据抽取
数据抽取是指把ODS源数据抽取到DW中,然后处理成展示给相关人员查看的数据
源数据:
- 用户访问日志
- 自定义事件日志、操作日志
- 业务日志
- 各服务产生的日志
- 系统日志:操作系统日志,CDN日志等
- 监控日志
- 其它日志
抽取频次:
- 如果没有特殊要求可以一天一次,但是需要避开拉去日志的高峰期
- 对于有实时性要求的日志,可以一小时一次,或者直接使用kafka等相关工具收集,需要考虑到系统能否承受
抽取策略: