hive和数据仓库(离线)
文章平均质量分 88
hive知识大全和离线数据仓库建设相关。
KG大数据
这个作者很懒,什么都没留下…
展开
-
hiveSQL优化思路(划重点)
目录0- 描述1- HQL语句优化1.1- 使用分区剪裁、列剪裁1.2- 尽量不要用COUNT DISTINCT1.3- 使用with as1.4- 大小表的join1.5- 数据倾斜0- 描述Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是:减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务原创 2021-12-30 18:21:03 · 1403 阅读 · 0 评论 -
数仓开发的10个陷阱
数仓健壮10要素!原创 2021-12-10 18:33:29 · 2479 阅读 · 0 评论 -
数据研发工程师面试全过程(个人面试)
终极大数据研发工程师面试!转载 2021-12-02 20:28:02 · 3337 阅读 · 0 评论 -
基于OneData的数据仓库建设(阿里巴巴大数据之路)
目录1- 指导思想2- 数据调研2.1- 业务调研2.2- 需求调研3- 架构设计3.1- 数据域的划分3.2- 构建总线矩阵4- 指标体系搭建4.1- 基本概念4.2- 操作细则5- 模型设计5.1- 数据分层5.2- 接入层(ods)5.3- 明细层(dwd)5.4- 汇总层(dws)5.5- 数据集市层(dwm)5.6- 应用层(app)6- 维度设计6.1- 维度设计基本方法6.2- 规范化和反规范化6.3- 一致性维度和交叉探查6.4- 维度整合6.5- 拉链表6.6- 微型维度6.7- 递归层次原创 2021-11-22 19:23:03 · 2746 阅读 · 1 评论 -
数据质量监控的探索和实践【爱奇艺】
目录0- 前言1- 为什么要进行数据质量监控2- 如何进行异常检测3- 检测报表4- 异常检测模式与检测引擎5- 箱体检测和高斯检测6- 后续规划0- 前言本文主要介绍数据治理平台中的规则引擎模块,包括当前规则引擎面临的问题、目标、异常检测的方法以及对后续规则引擎功能的探索。1- 为什么要进行数据质量监控数据质量监控其实跟当前疫情的防控工作有些类似,核酸检测能尽早去发现病毒,溯源则会更了解病毒会在哪些场景,或者对哪些人有比较大的影响,方便进行跟踪,这和数据质量监控有异曲同工之处。数据出现问题原创 2021-10-29 11:42:28 · 379 阅读 · 0 评论 -
大数据采集工具【常用】
目录1- Flume2- Fluentd3- Logstash4- Chukwa5- Scribe6- Splunk7- Scrapy1- FlumeFlume作为Hadoop的组件,是由Cloudera专门研发的分布式日志收集系统。尤其近几年随着Flume的不断完善,用户在开发过程中使用的便利性得到很大的改善,Flume现已成为Apache Top项目之一。Flume提供了从Console(控制台)、RPC(Thrift-RPC)、Text(文件)、Tail(UNIX Tail)、Syslo原创 2021-10-27 14:39:59 · 1775 阅读 · 0 评论 -
dws公共汇总粒度事实层设计
目录1-dws公共汇总粒度事实层介绍2-dws事实层设计原则3-dws事实表设计规范4-dws建表示例1-dws公共汇总粒度事实层介绍公共汇总粒度事实层DWS(Data Warehouse Summary)以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求构建公共粒度的汇总指标事实表。公共汇总层的一个表通常会对应一个派生指标。2-dws事实层设计原则聚集是指针对原始明细粒度的数据进行汇总。DWS公共汇总层是面向分析对象的主题聚集建模。在本教程中,最终的分析目标为:最近一天某个类目(例如:厨原创 2021-10-14 11:55:03 · 866 阅读 · 0 评论 -
dwd明细粒度事实层设计
目录1-数仓dwd事实层介绍2-数仓dwd层事实表设计原则3-数仓dwd层事实表设计规范4-建表示例1-数仓dwd事实层介绍明细粒度事实层以业务过程驱动建模,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。您可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,即宽表化处理。公共汇总粒度事实层(DWS)和明细粒度事实层(DWD)的事实表作为数据仓库维度建模的核心,需紧绕业务过程来设计。通过获取描述业务过程的度量来描述业务过程,包括引用的维度和与业务过程有关的度量。度量通常为原创 2021-10-14 11:33:45 · 2101 阅读 · 0 评论 -
DIM公共维度层详细设计(请点赞收藏!!)
目录0-什么是dim公共维度层1-定义维度2-设计维表3-公共维度汇总层(DIM)维表规范4-建表示例0-什么是dim公共维度层公共维度汇总层DIM(Dimension)基于维度建模理念,建立整个企业的一致性维度。公共维度汇总层(DIM)主要由维度表(维表)构成。维度是逻辑概念,是衡量和观察业务的角度。维表是根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。因此,公共维度汇总层(DIM)首先需要定义维度。1-定义维度在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维原创 2021-10-13 19:59:09 · 3924 阅读 · 0 评论 -
数据仓库之缓慢变化维解决方案
目录1-背景2-解决方案2.1-重写维度值2.2-插入新的维度行2.3-添加新的维度列2.4-拉链表处理1-背景众所周知,虽然维度表属性相对稳定,但是并不是一成不变的,尽管相当缓慢,维度值仍会随时间而变化。比如商品类目的改变,医院等级的改变。在一些情况下,保留历史数据没有什么分析价值,而在另一些情况下,保留历史数据是非常重要的。2-解决方案2.1-重写维度值在维度表中,仅需以当前值重写先前存在的值,不需要触碰事实表。缺点:如果业务需要准确的跟踪历史变化,这种方案是没法实现的,并且在以后想改变是原创 2021-09-24 14:01:05 · 499 阅读 · 0 评论 -
拉链表的详细实现过程(好文点赞收藏!!)
目录1-什么是拉链表2-为什么要做拉链表2.1-如何使用拉链表3-拉链表的形成过程4-拉链表的制作过程4.1-初始化拉链表(首次独立执行)4.2-制作当日变动数据(包括新增,修改)每日执行4.3-先合并变动信息,再追加新增信息,插入到临时表中4.4-把临时表覆盖给拉链表5-总结1-什么是拉链表本文以订单拉链表为例进行详细讲解。2-为什么要做拉链表2.1-如何使用拉链表3-拉链表的形成过程4-拉链表的制作过程4.1-初始化拉链表(首次独立执行)先生成10条原始订单数据(测试数原创 2021-09-24 13:58:04 · 20913 阅读 · 6 评论 -
数据仓库之数据质量建设(好文点赞收藏!)
目录0-前言1-为什么要进行数据质量评估2-数据质量衡量标准3-数据质量管理流程3.1-数据资产等级3.2-数据加工过程卡点校验3.2.1-在线系统数据校验3.2.2-离线系统数据校验3.3-数据处理风险监控3.3.1-数据质量监控3.3.2-数据及时性监控4-总结0-前言数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,原创 2021-09-22 11:46:50 · 1206 阅读 · 0 评论 -
数据仓库中ID-Mapping究竟是怎么实现的(one ID)?
目录1-为什么要做ID-Mapping2-ID-Mapping的核心技术3-总结1-为什么要做ID-Mapping为啥要做ID Mapping?其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题,也就不会有这波澜壮阔的数字技术发展和改革。举个例子:在 10 多年前的时候,当时IT界都还在做“四库十二金”的项目。就是把一个地区的所有地址给弄干净。这可就费劲了,因为同一个地址有 N 多种写法,比如说“大裤衩”,全称叫“中央电视台总部大楼”,门牌号是“北京市朝阳区东三环中路32号”,也有别称叫原创 2021-09-20 00:16:23 · 2407 阅读 · 0 评论 -
Hive数据存储格式详细讲解(好文点赞收藏!)
目录0-前言1-TextFile2-SequenceFile3-RCFile4-ORCFile4.1-ORC相比较 RCFile 的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC 的 ACID 事务的支持4.5-ORC 相关的 Hive 配置5-Parquet5.1-Parquet基本结构5.2-Parquet 的相关配置:5.3-使用Spark引擎时 Parquet 表的压缩格式配置:5.4-Parquet 和 ORC 压缩格式对比:0-前言本文讲解 Hive 的数据存储,是 H原创 2021-09-17 09:23:41 · 9031 阅读 · 1 评论 -
hive数据增量同步方案
目录1-每天全量同步2-每天增量同步3-不变的数据增量同步1-每天全量同步如人员表、订单表一类的会发生变化的数据,根据数据仓库的4个特点里的反映历史变化的这个特点的要求,我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据,这样历史的数据和当前的数据都可以很方便地获得。设定日分区,每天同步全量数据。--全量同步create table ods_user_full( uid bigint, uname string, deptno bigint,原创 2021-09-15 13:19:59 · 4543 阅读 · 0 评论 -
hiveSQL执行计划(explain使用全网最详细!!)
目录0-前言1-查看SQL的执行计划1.1-explain的用法2-explain使用场景2.1-join 语句会过滤 null 的值吗?2.2-group by 分组语句会进行排序吗?2.3-哪条sql执行效率高呢?3-explain dependency的用法3.1-识别看似等价的代码3.2-识别SQL读取数据范围的差别4-explain authorization 的用法5-总结0-前言Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行原创 2021-09-12 13:04:44 · 6115 阅读 · 3 评论 -
数仓中指标-标签,维度-度量,自然键-代理键等常见的概念术语解析
目录0-前言1-数仓中常见概念解析1.1-实体1.2-维度1.3-度量1.4-粒度1.5-口径1.6-指标1.7-标签1.8-自然键1.9-持久键1.10-代理键1.11-退化维度1.12-下钻1.13-上卷2-数仓概念之间的关系2.1-实体表,事实表,维度表之间的关系2.2-指标与标签的区别2.3-维度和指标区别与联系2.4-自然键与代理键在数仓的使用区别3-总结0-前言作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来转载 2021-09-12 00:20:09 · 1231 阅读 · 0 评论 -
从0-1建设数据指标体系(留存率业务案例)
目录0-背景1-指标是什么2-使用这些指标的注意和坑3-留存率的案例4-数据指标体系的构建0-背景经常会听到互联网人形容一个产品的体量和知名度用活跃用户来衡量,比如:“微信的日活接近10亿了,真社交巨兽。”这里面有个几个关键的词:衡量、日、活跃、用户。这些综合起来是什么,DAU。对于分析师来说,这是一个可反应业务产品活跃用户现状的一个指标。这样思考下去你可能会问想知道:1-指标是什么按照比较官方的定义是在一定条件和时间下反应某种现象的规模和比例,由指标名称和数值构成。实际上是不是所有的原创 2021-09-09 20:00:56 · 417 阅读 · 0 评论 -
hadoop中hive与mapreduce小文件合并优化实操(超强详解!!!)
目录1-背景1.1-造成大量小文件的原因:1.2-小文件的危害:2-解决方案实操2.1-解决方案12.2-解决方案22.3-解决方案33-总结扩展3.1-总结3.2-扩展(map任务数量的准确控制)1-背景公司数据治理过程中,发现apache hadoop大数据环境下hdfs中有数量惊人的小文件。如图所示为hdfs的web管理页面:如上图所示可以看到hive中的这个表的20200630这个分区中有551个数据文件。但是我们可以看到hdfs中的默认设置每个块大小为256M,而该表分区存储数据的原创 2021-09-09 15:02:04 · 1287 阅读 · 1 评论 -
数仓中的全量表,增量表,拉链表,流水表,快照表
目录0-预热1-正题1.1-全量表1.2-增量表1.3-拉链表1.4-流水表2-总结0-预热我们先从几个物理概念入手理解什么是流量,存量,增量(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量=流入量–流出量(5)本期期末存量=上期期末存量+本期内增量1-正题一般公司只是简单分成 全量表,增量表,和拉链表。所以重点关注如下三个表就OK了。1.1-全量表每天的所有的最新状态的数据原创 2021-09-02 14:30:08 · 1332 阅读 · 0 评论