平安ETL开发面试积累

本文介绍了ETL的含义及其在数据处理中的作用,包括数据抽取、转换和加载。讨论了Hadoop、Flume和Kafka在ETL流程中的应用,以及Hive的分层模型、优化方法和数据处理。提到了Hive在数据仓库中的建模,如星型模型,并分享了处理数据发散和倾斜的策略。此外,还提及了Hive的SQL优化技巧以及对其他数据库如MySQL、Oracle、MongoDB和HBase的了解。
摘要由CSDN通过智能技术生成

ETL是什么?

  ETL的英文全称叫做Extraction(抽取)Transformation(转换)Loading(加载),Extraction就是指将数据从一个数据源或者多个数据源抽取过来的一个动作,数据源可能是关系型的数据库、表,也可能是文本文件,或者是一个程序的API接口,Transformation在BI里面是指数据的清洗、合并、拆分、加工,数据逻辑计算处理的一个过程,通常会按照一定的业务逻辑规则进行计算,最后转换成符合业务模型、分析模型规范的数据,简单来说不管是大数据还是小数据,都是讲不规范的、不可分析的数据转换成规范的、可拆分的数据的一个过程,Loading就是将转换的结果,按照分析模型所需要的的格式,将数据写入到目标表中,这些目标表本身就是业务自助分析的数据来源,通常是按照一定的建模方式来组织的,不管是星型模型,还是雪花模型都是。
  也有另外一种ETL不是面向数据分析的,而是纯数据的处理,比如说数据库里面的数据迁移、多数据源的数据迁移,这些是纯数据的开发,用途也并不一定的面向BI的,可能是业务系统直接的数据转换处理。
  ETL通过什么方式或者工具来实现,基本上都是通过SQL语句(存储过程SQL查询),加上一些便捷的ETL的工具(比如商业性质的ETL工具Informatica、微软的SSIS、IBM DataStage等,也有开源的Pentaho、Kettle),主要是对数据的理解和SQL技术的要求都是必备的基础。
  (异常数据的处理、错误数据的恢复、多批次的ETL包的处理过程)

说一下自己熟悉的技术点

Hadoop

  Hadoop是由MR、yarn、hdfs、commom组成,MR是一个计算框架,yarn负责集群的资源调度,这是在2.0版本之后才加入的,hdfs是负责集群的数据存储,commom主要是一些辅助工具。
  关于hadoop集群的简单搭建,首先需要准备好虚拟机,然后安装好jdk、mysql,设置ssh免密,关闭防火墙,配置好相关的配置文件core-site.xml,hdfs-site.x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值