---面试题
文章平均质量分 97
面试题
寒 暄
自渡
展开
-
数仓灵魂30问之数仓如何分层的?及每一层的作用?
ODS层DWD层DWS层DWT层/DM层ADS层/APP层原创 2020-09-14 14:25:41 · 2455 阅读 · 0 评论 -
数据仓库灵魂30问之数仓基础理念理解
主题主题是一个抽象概念,是在较高层次上将数据综合、归类并进行分析利用的抽象。每一个主题都对应一个宏观的分析领域,在实际上,每一个主题对应这个分析领域的所有的分析对象。比如销售主题对应所有和销售这个领域有关的数据。主题域主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。比如销售主题的主题域就是这个领域有关的数据的集合。血缘关系血缘关系是指某个字段从哪个系统的哪个表产生,经过哪些流程最后被弃用的全过程。比如我们要从A表,B表,C表生成D表,在整个过原创 2020-09-14 12:02:14 · 581 阅读 · 0 评论 -
数据仓库灵魂30问之数仓有哪几种建模思想?
范式建模范式建模在实际的应用中有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)在企业范式建模中,一般追求三范式,即:属性不可分割不存在部分函数依赖不存在传递函数依赖属性不可分割假设有表如下:班级物品3年E班30张桌子3年E班30张椅子很显然这个表不符合第一范式,因为列中的数据不是原子数据项,可以再分割。修改后如下:年级班级数量物品3E30桌原创 2020-09-12 14:08:27 · 1016 阅读 · 0 评论 -
数据仓库灵魂30问之数仓最重要的是什么
数据仓库最重要的是数据的准确性。数据仓库最重要的是数据的准确性。数据仓库最重要的是数据的准确性。保证数据高准确的保障是元数据管理系统。元数据管理系统负责从数据接入,加工到数据被消费的整个链路,相当于商品生产线上的监控系统。对元数据体系的规范与模型建设,提供统一的元数据出口来保障元数据产出的稳定性与质量。首先应该对元数据进行分类,比如计算元数据,存储元数据,质量元数据等等,避免数据的重复建设。同时需要大量的表与字段对元数据字段进行说明,根据数据仓库分层建设元仓中间层,元仓基础宽表进而打通整个链路原创 2020-09-07 11:59:23 · 1101 阅读 · 0 评论 -
数据仓库工程师面经(未完)
HIVEHive row_number,dense_rank,rank三个函数的区别row_numberrow_number排序为标准顺序排序,排序后序号按照行号依次递增。a 1b 2b 3b 4c 5c 6dense_rankdense_rank排序中大小一致的元素序号一样,然后按照元素降序依次降序排序。a 1b 2b 2b 2c 3c 3rankrank排序大小一致的元素序号一样,但是会按照行号依次降序排序。a 1b 2b 2b 2c 5c 5原创 2020-09-05 10:47:26 · 3905 阅读 · 4 评论 -
Hive parquet数据格式内部结构
parquet是一个列式存储格式,由一个header,四个block,一个footer组成。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式文件中所有的metadata都存在于footer中footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1原创 2020-09-05 10:26:51 · 893 阅读 · 0 评论 -
Hive order by,sort by,distribute by,cluster by 区别
假设有一个表a,结构如下:par idc 3c 7b 8b 6a 1a 4a 5c 9a 10b 2order by全排序,只会启动一个reduce执行任务。select * from a order by id;-- 在hdfs上只会生成一个文件,里面为排序好的1-10,耗时较长。sort by局部排序,会根据数据量启动一个或多个reduce执行任务,每个reduce只会排序自己接受的数据。set mapreduce.job.reduces = 3;select原创 2020-09-05 10:04:33 · 396 阅读 · 0 评论 -
Hive 窗口函数如何设置窗口大小
select city,year,taxes, sum(money) over() as sample1,--所有行相加 sum(money) over(partition by city) as sample2,--按city分组,组内数据相加 sum(money) over(partition by city order by year) as sample3,--按city分组,组内数据累加 sum(money) over(partition by city order by year原创 2020-09-05 09:48:06 · 1699 阅读 · 0 评论 -
Hive row_number,dense_rank,rank三个函数的区别
row_numberrow_number排序为标准顺序排序,排序后序号按照行号依次递增。select id,row_number() over(order by id) as number from table1;id numbera 1b 2b 3b 4c 5c 6dense_rankdense_rank排序中大小一致的元素序号一样,然后按照元素降序依次降序排序。select id,dense_rank() over(order by id) as number from ta.原创 2020-09-05 09:38:23 · 685 阅读 · 0 评论 -
数据仓库灵魂30问之元数据的理解?元数据管理系统?
元数据就是数据的数据。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。元数据有重要的应用价值,是数据管理、数据内容、数据应用的基础,在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持。元数据管理系统: 首先梳理清楚元仓底层数据,对元数据做分类,如计算元数据、存储元数据、质量元数据等,减少数据重复建设,保障数据的唯一性。另外, 要丰富表和字段使用说明,方便使用和理解。根据元仓底层数据构建元仓中间层,建设元数原创 2020-07-13 16:34:47 · 570 阅读 · 0 评论 -
数据仓库灵魂30问之传统数仓和大数据数仓的异同?有哪些大的变化?
不同点:特性传统数仓大数据数仓数据存储位置关系型数据库HDFS数据集市位置MPP平台HDFS数据多样性结构化数据结构化数据、非结构化数据、半结构化数据节点数量几千几千~几万数据量TB级别PB级别商业价值较为单一极高用途BIAI应用开发接口SQLSQL,多种编程接口事务支持支持完整支持有限操作难易度较高,需要专业人员较低,可以批量培训相同点:逻辑架构数据建模数据治理数据标准规范原创 2020-07-11 16:53:52 · 1854 阅读 · 1 评论 -
数据仓库灵魂30问之数据仓库、数据中台、数据湖有什么区别
先说结论:数据仓库实行分而治之,面向BI(商业智能);数据中台实行一统天下,面向DateAPI(数据服务API);数据湖实行无为而治,面向AI(人工智能)。他们三个实行的策略不同,用途不同。但是数据中台可以包容数据仓库与数据湖,数据湖与数据仓库是并存的。接着我从为什么建立他(目的),建立他需要什么(成本),可以带来什么(收益)三方面来讨论。数据仓库目的实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。也就是数据仓库主要用于为公司决策者提供决策支持,当然也可以为生产环原创 2020-07-10 11:37:25 · 520 阅读 · 0 评论 -
数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。
什么是中台?什么是数据中台数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建。通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,原创 2020-07-09 11:22:52 · 599 阅读 · 0 评论 -
数据仓库灵魂30问之什么是数据仓库?如何构建数据仓库?
什么是数据仓库?如何构建数据仓库?什么是数据仓库?数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。面向主题的:数据集合是以主题为单位进行数据汇聚,一个主题内只存储与本主题有关系的数据。集成的:数据来源多种多样,需要ETL操作。相对稳定的:一般只进行写入与查询操作,不进行更新与删除。反映历史变化:关键数据隐式或显原创 2020-07-07 16:33:37 · 628 阅读 · 0 评论