![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓理论
文章平均质量分 78
吃鱼的羊
这个作者很懒,什么都没留下…
展开
-
mapreduce二次排序详解
mapreduce二次排序详解 - linzch3 - 博客园什么是二次排序待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图(如果看不清可右键新标签页查看):图片部分数据参考自:Hadoop — MapReduce原理解析相关重点:分区(partitioning):使得具有相同Key值的键值.转载 2021-10-22 21:25:40 · 2160 阅读 · 0 评论 -
如何建立以指标体系为目标的数仓
如何建立以指标体系为目标的数仓?数仓全景图00建设过程数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,根据经验,总结出上面的七个步骤:1、梳理业务流程2、领域垂直切分3、指标体系梳理4、实体关系调研5、维度梳理6、数仓分层7、物理模型建立。每个步骤不说理论,直接放工具、模板和案例。01业务流程1找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。2梳理每转载 2021-10-21 14:50:08 · 449 阅读 · 0 评论 -
微信开发中 openID 与 unionID 的区别
今天想介绍关于OpenID和UnionID这两个ID的理解方式。官网解释OpenID用户唯一标识,请注意,在未关注公众号时,用户访问公众号的网页,也会产生一个用户和公众号唯一的OpenIDUnionID通过获取用户基本信息接口,开发者可通过OpenID来获取用户基本信息,而如果开发者拥有多个公众号,可使用以下办法通过UnionID机制来在多公众号之间进行用户帐号互通。只要是同一个微信开放平台帐号下的公众号,用户的UnionID是唯一的。换句话说,同一用户,对同一个微信开放平台帐号下的.转载 2021-06-03 13:52:38 · 2757 阅读 · 0 评论 -
hive中join导致的数据倾斜问题排查, 分析热点值
https://blog.csdn.net/wisgood/article/details/77063606转载 2021-05-29 13:53:16 · 1416 阅读 · 0 评论 -
事实表的分类:事务事实表,周期快照事实表,累计快照事实表
维度建模数仓领域中的事实表大致分以下三种:事务事实表,周期快照事实表,累计事实表。事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度,但是它们在内容构成以及业务描述上还是有很大的区别。1.事务事实表事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。由于事实表具有稀疏性质 ,因此只有当天数据才会进入 当.转载 2021-05-23 12:47:07 · 2056 阅读 · 0 评论 -
join算法分析
https://w.cnblogs.com/---wunian/p/9227586.htmljoin算法分析对于单条语句,explain看下key,加个索引多个条件,加复合索引where a = ? order by b 加(a,b)的复合索引上面都是比较基本的,这篇我们分析一些复杂的情况——join的算法如下两张表做join10w 100wtb R tb S r1 s1 r2 ..转载 2021-02-04 22:33:13 · 401 阅读 · 0 评论 -
MapReduce多进程和spark多线程
https://blog.csdn.net/u010916338/article/details/808517721,首先要区分分布式概念,分布式指的是将一个任务切分成多块分到多台机器运行.2,进程可以理解成该服务器分到的那一块任务(MapReduce每分到一个任务会重启一个进程,而spark的所有任务都只在一个进程中,每来一个任务启动一个线程.)3,线程可以理解成在进程的基础之上又细分的更小的任务4,在任务级别(特指Spark任务和MapReduce任务)上却采用了不同的并行机制:Hado.转载 2021-02-04 22:29:49 · 541 阅读 · 0 评论 -
元数据管理工具——Atlas
https://blog.csdn.net/u012543380/article/details/110070153https://blog.csdn.net/oDaiLiDong/article/details/78052017第1节 数据仓库元数据管理元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。如数据库中表的Schema信息,任务的血缘关系,用户和脚本/任务的权限映转载 2021-02-04 22:17:07 · 2614 阅读 · 0 评论 -
Flink的是如何实现exactly_once的?(CheckPoint详解)
https://blog.csdn.net/u010271601/article/details/104933021文章目录 一、什么是CheckPoint? 二、为什么要开启CheckPoint? 三、Flink 任务状态是什么? Flink 整体框架图 四、Flink Checkpoint 语义 五、Exactly_Once 六、以FlinkKafkaProducer为例解析 1、CheckPoint 源码详解转载 2021-02-04 21:34:10 · 429 阅读 · 0 评论 -
调研公司内部Spark集群能承受多少并发量
https://blog.csdn.net/qq_29726869/article/details/82757381任务描述测试公司内部Spark集群能承受多少并发量Spark集群分配参数节点数:5cpu:20核内存:40g硬盘:500g每台节点分配参数cpu:4核内存:8g硬盘:100g测试案例(通过spark集群自带WEBUI进行监控任务提交运行状态)1.编写测试程序1,无限循环通过Spark restful API 提交任务到...转载 2021-01-30 21:00:23 · 414 阅读 · 0 评论 -
Hadoop Yarn详解
https://www.cnblogs.com/lzc-1105m/p/9984122.html摘要:一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn.转载 2021-01-30 20:57:37 · 461 阅读 · 0 评论 -
脑补|yarn能并行运行任务总数~
https://cloud.tencent.com/developer/article/1534332最近知识星球没动静主要原因是知识星球他们在做系统升级,我也很无奈,由此给球友带来的不安,深感抱歉。前几天球友问了我一个问题:请问浪总,集群400GB内存,提交了10个任务后就不能继续提交任务了, 资源还剩余300GB,CPU也很充足,完全满足新任务的资源,为啥就不能提交新任务了呢???各位同仁也可以先思考一下可能的原因及解决方案。估计很多人会说:很明显,新任务申请的资源,大于了可提供转载 2021-01-30 20:56:33 · 810 阅读 · 0 评论 -
如何做数据治理?
https://2ly4hg.smartapps.cn/pages/article/article?articleId=308421762&authorId=416839&spm=smbd.content.share.0.1611981658907AqS7X7r&_trans_=010005_wxhy_shw&hostname=baiduboxapp&_swebfr=1数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又转载 2021-01-30 20:54:46 · 1322 阅读 · 0 评论 -
Hive:数据倾斜
https://www.cnblogs.com/lisen10/p/11448978.htmlhttps://www.cnblogs.com/qingyunzong/p/8847597.html数据倾斜问题数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。数据倾斜是指:mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个redu.转载 2021-01-11 22:19:51 · 331 阅读 · 0 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
https://bigdata.51cto.com/art/201705/539761.htm本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,***并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下..转载 2021-01-28 21:51:13 · 308 阅读 · 0 评论 -
交易事实表、周期快照事实表和累积快照事实表
https://blog.csdn.net/zlcd1988/article/details/40039921在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。 事务事实表记录的事务层面的事实,保...转载 2021-01-28 21:50:08 · 1336 阅读 · 0 评论 -
事实表设计之累计快照事实表
https://blog.csdn.net/xu704928452/article/details/102832574?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.not_use_machine_learn_pai&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.not_use_machin转载 2021-01-28 21:49:33 · 1362 阅读 · 0 评论 -
Spark中的RDD持久化
https://wjrsbu.smartapps.cn/zhihu/article?id=61555283&isShared=1&hostname=baiduboxapp&_swebfr=1本文会从以下几个方面来讲解以下Spark中的RDD持久化:1、为什么要进行RDD持久化2、RDD持久化原理3、RDD持久化的使用场景4、怎样使用RDD持久化5、通过cache()和persist()源码讲解RDD持久化策略级别6、RDD持久化策略选择1、为什么.转载 2021-01-28 21:46:33 · 988 阅读 · 0 评论 -
Spark RDD持久化、广播变量和累加器
https://blog.csdn.net/matrix_google/article/details/83304063https://wjrsbu.smartapps.cn/zhihu/article?id=61555283&isShared=1&hostname=baiduboxapp&_swebfr=1Spark RDD持久化RDD持久化工作原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操.转载 2021-01-28 21:45:40 · 241 阅读 · 0 评论 -
Spark Shuffle详解
https://www.cnblogs.com/shuzhiwei/p/11077299.html--Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?https://blog.csdn.net/qq_34901049/article/details/103792271Shuffle,翻译成中文就是洗牌。之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单转载 2021-01-28 21:42:12 · 1277 阅读 · 0 评论 -
大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?
https://wjrsbu.smartapps.cn/zhihu/article?id=297769662&isShared=1&_swebfr=11. hadoop它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用2. hive通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成Ma...转载 2021-01-28 21:51:38 · 667 阅读 · 0 评论 -
Hive环境调优总结,hive3大执行引擎区别在哪?
https://wjrsbu.smartapps.cn/zhihu/article?id=252288440&isShared=1&hostname=baiduboxapp&_swebfr=1问题:hive 中count(*) 结果不准确?场景:hive 中建表,stored as parquet tblproperties ("parquet.compression"="lzo"); 从ods层导入数据,先进行全表检索。select * from dwd_fact.转载 2021-01-28 21:39:02 · 1621 阅读 · 0 评论 -
Spark迭代运算
https://wjrsbu.smartapps.cn/zhihu/answer?id=1429890077&isShared=1&hostname=baiduboxapp&_swebfr=1Spark迭代运算,采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少不同任务之间的依赖,降低延迟等待时间。要搞懂Spark迭代运算,着重去搞清楚几个概念:RDD、DAG(有向无环图)、Shuffle机制。RDD是Spark的灵魂,一个RDD代表一转载 2021-01-28 21:37:06 · 1533 阅读 · 0 评论 -
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
https://blog.csdn.net/panfelix/article/details/107245038Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2021-01-28 21:33:24 · 1365 阅读 · 1 评论 -
Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
https://wjrsbu.smartapps.cn/zhihu/article?id=257917645&isShared=1&hostname=baiduboxapp&_swebfr=1https://wjrsbu.smartapps.cn/zhihu/article?id=108392642&isShared=1&hostname=baiduboxapp&_swebfr=1https://blog.csdn.net/zhaolq1024/art转载 2021-01-27 22:10:02 · 377 阅读 · 0 评论 -
一文探究数据仓库体系(2.7万字建议收藏)
https://mp.weixin.qq.com/s?__biz=MzI2MDQzOTk3MQ==&mid=2247485691&idx=1&sn=d6cb1353031e07e4b02cd903d8b57911&chksm=ea68e237dd1f6b210f65f25ef42dabf4453d3bfa36fe8f33b149c0ff5329f77b9b792eef7882&scene=21#wechat_redirect转载 2021-01-27 22:02:34 · 144 阅读 · 0 评论 -
简述元数据管理
https://mp.weixin.qq.com/s?__biz=MzI2MDQzOTk3MQ==&mid=2247485186&idx=1&sn=85fbe5703c56aa2dcfd2980fccbab4f6&chksm=ea68edcedd1f64d8e2d8c3da6b456fcaa4b105f2216a2bddb2393a7380498166225de5e855b4&scene=21#wechat_redirect你所理解的元数据是什么样子的呢?.转载 2021-01-27 22:00:13 · 1344 阅读 · 0 评论 -
大数据开发实战:Hive优化实战3-大表join大表优化
https://www.cnblogs.com/shaosks/p/9491905.htmlhttps://www.cnblogs.com/bjgua/p/9624144.html5、大表join大表优化 如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。 5.1、问题场景 问题场景如下: A表为一个汇总表,汇总的是卖家转载 2021-01-27 21:37:18 · 2622 阅读 · 0 评论 -
数据质量那点事
https://mp.weixin.qq.com/s?__biz=MzI2MDQzOTk3MQ==&mid=2247485039&idx=1&sn=140c3bc720da51765292fe3f5082fe38&chksm=ea68eca3dd1f65b5aef4d6f7ab0c33d3d3033bcc0eead1650be079687e0b4e898562bfe4d25b&scene=21#wechat_redirect数据质量基本概念 数据..转载 2021-01-24 20:35:59 · 238 阅读 · 0 评论 -
数据仓库分层架构
https://mp.weixin.qq.com/s?__biz=MzI2MDQzOTk3MQ==&mid=2247484684&idx=1&sn=2d69b0f3269af62e5011395b5cb78cbd&chksm=ea68efc0dd1f66d6756cc536e4997562ec8ddb34e35b7e0918acdda5c24d716ce98478a1ee66&scene=21#wechat_redirect1分层实现 数据仓...转载 2021-01-24 20:33:25 · 1808 阅读 · 0 评论 -
Hive调优,数据工程师成神之路
https://mp.weixin.qq.com/s/7lz9nJhQb9Qal6hCI1EUOA1前言 毫不夸张的说,有没有掌握hive调优,是判断一个数据工程师是否合格的重要指标 hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等2数据的压缩与存储格式1. map阶段输出数据压缩,在这个阶段,优先选择一个低CPU开销的算法。 set hive.exe...转载 2021-01-24 20:28:00 · 367 阅读 · 0 评论 -
sqoop 导入增量数据到hive
https://www.cnblogs.com/Alcesttt/p/11432547.html版本hive:apache-hive-2.1.0sqoop:sqoop-1.4.6hadoop:hadoop-2.7.3导入方式1.append方式2.lastmodified方式,必须要加--append(追加)或者--merge-key(合并,一般填主键)创建mysql表并添加数据-- ------------------------------ Table s转载 2021-01-24 20:26:25 · 1182 阅读 · 0 评论 -
数据仓库中的拉链表(hive实现)
https://blog.csdn.net/weixin_40444678/article/details/81083614数据仓库中的拉链表(hive实现)前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何...转载 2021-01-24 20:23:12 · 444 阅读 · 0 评论 -
你真的了解全量表,增量表及拉链表吗?
https://my.oschina.net/u/4631230/blog/45627811Mysql数据准备第一天 9月10号数据1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,待支付,2020-09-10 14:20:11,2020-09-10 14:20:113,待支付,2020-09-10 16:20:11,2020-09-10 16:20:11第二天 9月11号数据1,待支付,2020-09-10 12:2...转载 2021-01-24 20:19:21 · 1174 阅读 · 0 评论 -
2020大数据面试题真题总结(附答案)
https://my.oschina.net/u/4631230/blog/4533362版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 一.转载 2021-01-24 20:11:45 · 22737 阅读 · 0 评论 -
详解MapReduce执行流程
https://my.oschina.net/u/4631230/blog/46824711mr原理 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;2为什么要用mapreduce 海量数据在单机上处理因为硬件资源限制,无法胜任 而...转载 2021-01-24 20:09:31 · 1836 阅读 · 0 评论 -
从0-1建设数仓遇到什么问题?怎么解决的?
https://my.oschina.net/u/4631230/blog/4688810这个应该算是比较高频的高级的面试题了,第一次听到这个面试题是几个月以前,朋友面试华为阿里滴滴啥的都有问到,近期老徐面微店蚂蚁美团都问到了,所以还是应该引起重视 在交流群发起这个话题的时候,有响应但是没啥答案,可能是因为大家都不是从0-1搭建数仓的,或者不是数仓方向的,所以大家都在等待有经验的人来讨论一下这个问题,等啊等,硬是没等到。 非常遗憾,我也没从0-1搭建...转载 2021-01-24 19:58:42 · 1159 阅读 · 2 评论 -
hive增量更新的新方案
https://blog.csdn.net/qq_20641565/article/details/53164155之前是采用的join的方法来增量更新。详情见:http://blog.csdn.net/qq_20641565/article/details/52763663现在有一种新方案如下:Select b.id,b.name,b.addr,b.updated_date From(select a.*,row_number() over(distribute by a.id sor转载 2021-01-23 21:51:20 · 602 阅读 · 0 评论 -
Hive学习小记-(10)hive增量下发的变化流水表如何做update操作
https://www.cnblogs.com/foolangirl/p/14222561.html场景有一张明细事务级别的流水表,主键是事件流水号srl_id, 该表每天采集当天新增及变化的事件下发,上游下发文件分区日期prt_dt.存在这样的情况,某个流水号srl_id在20210101发生,会在prt_dt=20200101的分区首次下发,若之后在20200105发生改变,在prt_dt=20200105会再次下发。每个流水号都有一个estb_dt,即首次发生日期,同一srl_id,.转载 2021-01-23 21:46:56 · 784 阅读 · 0 评论 -
如何实施ETL任务质量监控
https://zhuanlan.zhihu.com/p/136943331数据质量监控背景当我们把数据导入数据仓库时,ETL中的每个步骤中都可能会遇到数据质量错误。比如与源系统的连接错误,抽取数据可能会失败。由于记录类型冲突,数据转换可能会失败。即使的ETL任务成功,提取的记录中也会出现异常值,导致后续过程报错。那么如何主动捕获这些错误,并确保数据仓库中的数据质量?接下来,我们来总结5条规则,在做ETL的过程中,使用这些规则来确保数据仓库中的数据质量。数据质量监控方法1、校验每天的转载 2021-01-23 21:36:16 · 500 阅读 · 0 评论