数仓
文章平均质量分 92
五分钟学大数据
公众号:五分钟学大数据
展开
-
大数据之数据治理体系全面指南
数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集存储计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。原创 2024-06-22 19:39:04 · 951 阅读 · 0 评论 -
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,。先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃。数仓工具箱。原创 2023-07-09 19:08:34 · 734 阅读 · 0 评论 -
如何保障数仓数据质量?
有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1.有赞数据链路 、2.数据层测试、 3.应用层测试、 4.后续规划这四个方面展开。首先介绍有赞的数据总体架构图:自顶向下可以大致划分为应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理原创 2022-06-07 16:42:09 · 2348 阅读 · 9 评论 -
数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)
本文目录:一、数据流向二、应用示例三、何为数仓DW四、为何要分层五、数据分层六、数据集市七、问题总结导读数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你有帮助。因文章太长,本文不是完结版,文末可获取完整PDF版从事数仓相关工作的人员都知道数仓模型设计的首要工作之一就是进行模型分层,可见模型分层在模型设计过程中的重要性,确实优秀的分层设计是一个数仓项目能否建设成功的核心要素,让数原创 2022-04-13 14:32:28 · 5051 阅读 · 9 评论 -
最强最全面的数仓建设规范指南
目录一、数据模型架构原则1. 数仓分层原则2. 主题域划分原则3. 数据模型设计原则二、数仓公共开发规范1. 层次调用规范2. 数据类型规范3. 数据冗余规范4. NULL字段处理规范5. 指标口径规范6. 数据表处理规范7. 表的生命周期管理三、数仓各层开发规范1. ODS层设计规范2. 公共维度层设计规范3. DWD明细层设计规范4. DWS公共汇总层设计规范四、数仓命名规范1. 词根设计规范2. 表命名规范3. 指标命原创 2021-11-11 12:05:33 · 4315 阅读 · 18 评论 -
数仓中指标-标签,维度-度量,自然键-代理键等各名词深度解析
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。本文首发于公众号【五分钟学大数据】本文结构如下图所示:一、数仓中常见概念解析1. 实体实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟原创 2021-09-09 10:40:46 · 2519 阅读 · 5 评论 -
Hive SQL语句的正确执行顺序
关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢?今天我们通过 explain 来验证下 sql 的执行顺序。在验证之前,先说结论,Hive 中 sql 语句的执行顺序如下:from .. where .. join .. on .. select .. group by .. select .. having ..原创 2021-08-02 09:53:17 · 1148 阅读 · 2 评论 -
关于数仓建设及数据治理的超全概括
本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!本文首发于公众号【五分钟学大数据】在谈数仓之前,先来看下面几个问题:数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一.原创 2021-07-22 15:32:07 · 2123 阅读 · 10 评论 -
Hive企业级性能优化(好文建议收藏)
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。本文首发于公众号:五分钟学大数据Hive性能问题排查的方式当我们发现一条SQL语句执行时间过长或者不合理时,我们就要考虑对SQL进行优化,优化首先得进行问题排查,那么我们可以通过哪些方式进行排查呢。原创 2021-04-13 11:27:21 · 2332 阅读 · 7 评论 -
通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
在数据仓库领域,有两位大师,一位是“数据仓库”之父 Bill Inmon,一位是数据仓库权威专家 Ralph Kimball,两位大师每人都有一本经典著作,Inmon大师著作《数据仓库》及Kimball大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。今天我们就来聊下这两种建模方式——范式建模和维度建模。本文开始先简单理解两种建模的核心思想,然后根据一个具体的例子,分别使用这两种建模方式进行建模,大家便会一目了然!本文首发于公众.原创 2021-04-08 14:37:29 · 4995 阅读 · 10 评论 -
一文学完所有的Hive Sql(两万字最全详解)
Hive Sql 大全本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode 以及 reflect窗口函数与分析函数其他一些窗口函数文章首发于公众...原创 2021-04-01 16:12:57 · 44970 阅读 · 18 评论 -
干货 | 万字详解整个数据仓库设计体系
数据仓库的基本概念数据仓库概念:本文首发在公众号:五分钟学大数据,回复【秘籍】即可获取大数据宝典一份英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。基本特征:数据仓库是面向主题的原创 2021-03-19 14:32:57 · 3361 阅读 · 5 评论 -
美团优选大数据开发岗面试真题-附答案详细解析
公众号(五分钟学大数据)已推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂!此面试题来自牛客网友分享的美团优选一面,面试时长一小时。网友情况:海外水本,在某三线中厂工作2年。参考答案由本公众号提供。如有错误,欢迎指正!以下为面试过程中提问,岗位为大数据开发,根据提问内容看出,主要偏数仓方向 自我介绍 到北京工作的意愿 SQL题,给一张城市和交易额表,一张城市对应省份表, 取.原创 2021-03-10 12:58:49 · 8749 阅读 · 18 评论 -
超干货 |(实战经验)结合公司业务分析离线数仓建设实践
前言技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的业务介绍公司属于金融科技ToC企业,针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根据业务进行,而是结合数据的属性。早期规划之前开发是不同业务线对应不同的数据团队,每个数据团队互不干扰,这种模式比较简单,只针对自己的业务线进行数仓建设及报表开发即可。但是随着业务的发展,频繁迭代及跨部门的垂直业务单元越来越多,业务之间的出现耦合情况,这时.原创 2021-02-26 09:37:28 · 2660 阅读 · 23 评论 -
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃。因为本文是纯理论知识,密密麻麻的字,很多人可能看不下去,所以我尽.原创 2021-01-11 15:55:52 · 1424 阅读 · 0 评论 -
数仓面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据小文件产生原因hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的通过load方式加载数据load data local inpath '/exp原创 2021-01-10 11:44:24 · 1000 阅读 · 0 评论