extract-transform-load

本文详细介绍了ETL(Extract-Transform-Load)流程,包括数据清洗的步骤,如过滤不完整、错误和重复的数据,以及数据转换,如处理不一致数据、调整数据粒度和执行商务规则计算。同时,还提到了ETL日志和警告通知的重要性,确保ETL过程的可追溯性和问题及时发现。
摘要由CSDN通过智能技术生成

 ETL将数据经过抽取extract、转换transform、加载load 到数据仓库

数据清洗转换:

        清洗:即过滤,过滤什么呐?肯定不能把好的、符合要求的数据滤掉,过滤完不符合要求的数据后,交给相关部分确认是否对对口再接着往下抽取

        那什么是不符合要求的数据:

             不完整:应该有的你没有,那怎么能行,补上!

             错误的:何为错误,这个仁者见仁智者见智,格式不对、看不前的祸害、全角半角这种上世纪的错误那都是要我们去承担的,通过sql等找出来,那必须修正药业之后再抽取

             重复的:重复的这个词,不是money其他的都通通甩掉

       这个过程就是繁琐,需要细致面对,走过了之后也算是解决了一大半问题

 

     转换:不一致数据的转换、数据粒度的转换,一些(商务)规则的计算

               不一致数据:合并同类项 或者 归类 统一格式、一家人就要整整齐齐的,少一两个都不行

               数据粒度的转换:不同的粒度、不同的维度,聚合出不一样的火花,要四维的不要整成三维要不别人说你没有想象力

             (商务)规则计算:不同行业不同老板有不同的规则和癖好,列出奇奇葩葩的数据指标,作为小兵小虾的我们指定了要按规则办事,这也算是拿人钱财与人消灾吧

 

ETL日志、警告通知:

         日志:三大类*小点 总之要通过日志告诉我们etl的情况,出错了要让我们有章可循

                   执行过程日志:ETL执行记录,比如运行时间、影响了多少data

                   错误日志:模块出错那必须记下来,没错、活生生的嫉妒,必须清清楚楚明明白白记录错误的时间 模块 信息

                   总体日志:大概差不多的那种,什么时候开始、什么时候结束、结果怎么样,都有、ok、好了 可以走了

       警告:给我们发警告,及时发现问题,一般是发邮件,现在呐钉钉流行IT,用他也可以

 

谢谢:

https://www.cnblogs.com/Little-Li/p/11114643.html

百度百科ETL

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值