![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 90
遐想者csdn
学以致用
展开
-
数据仓库:详解维度建模之事实表
每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。原创 2023-02-02 14:41:18 · 842 阅读 · 0 评论 -
数据倾斜汇总
一、hive数据倾斜1、可能会触发Hive数据倾斜的几种情况: 1)join: (1)分发到某一个或几个reduce上的数据远高于平均值(其中一个表较小,但是key集中); (2)存在大量空值都有一个reduce处理(大表与小表,但是分桶的判断字段空值或0值过多); 2)group by: (1)处理某个值的reduce非常耗时(group by维度过小,处理的数量过多); 3)...原创 2021-04-01 19:33:21 · 235 阅读 · 0 评论 -
大数据常见面试题及答案
大数据常见面试题及答案,大部分都有涉及原创 2021-03-25 18:45:45 · 27088 阅读 · 2 评论 -
spark
1-1 Spark简介Spark的含义:是一个快速且通用的集群计算平台Spark的特点: spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 spark是通用的 容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护 优点:降低了维护成本 spark是高度开放的 提供了python、java、scala、SQL的API和丰富的内置库原创 2020-11-02 15:32:23 · 210 阅读 · 0 评论