离线数据仓库相关
文章平均质量分 75
数据仓库, 是大数据的重要应用方向之一.离线属于其中一个分支.
zhouyanjun_
一直在学习。。。
展开
-
Spark 与 Flink 的演进与区别(上)
“ Hadoop 中的计算框架 MapReduce 的基本思想。我们已经知道,MapReduce 的主要功能就是并行计算,但是它也不是十全十美的,MapReduce 高成本的硬伤使得它已经不能很好地解决新时代的问题。”01什么是 Spark打开 Spark 的官网,我们看到的第一句话就是对 Spark 的定义:Spark 是用于大规模数据处理的通用分析引擎。当然,原文是英文的,这句是我翻译过来的。这句话非常简洁明了地讲解了 Spark 的功能,一个是针对大规模数据,一个是通用分析引擎。让我们简单回顾原创 2021-05-16 23:36:06 · 209 阅读 · 0 评论 -
简单了解spark、flink执行任务过程中的DAG有向无环图
01 什么是DAG?DAG:Directed Acyclic Graph,中文意为「有向无环图」。DAG原本是计算机领域一种常用数据结构,因为独特的拓扑结构所带来的优异特性,经常被用于处理动态规划、导航中寻求最短路径、数据压缩等多种算法场景。我们直观点来理解:这就要从太阳系说起了,了解太阳系的运转方式有利于大家更加直观的了解什么是DAG。上学时候老师教我们银河系中的星球都是围绕着太阳旋转的,还在课本中生动的附上了一张生动的图。地理老师通常告诉我们太阳系中的行星都是按照圆轨道围着太阳转的,理论是没原创 2021-05-09 20:13:51 · 2260 阅读 · 1 评论 -
秒懂 QPS、TPS、PV、UV、GMV、IP、RPS
QPS、TPS、PV、UV、GMV、IP、RPS等各种名词,外行看起来很牛X,实际上对程序员来说都是必懂知识点。下面我来一一解释一下。QPSQueries Per Second,每秒查询数。每秒能够响应的查询次数。QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准,在因特网上,作为域名系统服务器的机器的性能经常用每秒查询率来衡量。每秒的响应请求数,也即是最大吞吐能力。TPSTransactions Per Second 的缩写,每秒处理的事务数目。一个事务是指一个客户机向服务原创 2021-02-25 13:15:43 · 755 阅读 · 0 评论 -
数据仓库拉链表回滚实现及本质
问题背景:拉链表如果有一天的数据错了,比如说到12月15号,但是发现11月10号拉链的数据错了,导致后续拉链的结果都错了,这个应该怎么修正拉链表的回滚问题?修正拉链表回滚问题本质就是:重新导入数据,将原始拉链表数据过滤到指定日期之前即可。举例:拉链表dwd_userinfo_db,目前时间是2020-12-15,想回滚到2020-11-27,那么拉链表的状态得是2020-11-26userid starttime endtime1 2020-11-12 2020-11-261 20原创 2020-12-20 16:29:55 · 2418 阅读 · 4 评论 -
Maven_依赖下载问题解决
打开本地maven仓库。打开一个依赖,_remote.repositories 远程仓库这文件,记录了下面的依赖是从哪个仓库下载下来的。打开之后。#NOTE: This is a Maven Resolver internal implementation file, its format can be changed without prior notice.#Fri Aug 21 10:23:45 CST 2020hive-exec-3.1.2.jar>nexus-aliyun=h.原创 2020-10-11 14:26:50 · 4210 阅读 · 1 评论