数据仓库
文章平均质量分 68
俩只猴
独自奋斗的程序猿
展开
-
关于维度建模中维度表的一些设计细节(持续更新)
维度表的层次维度表进行一定的降维,一般情况加有一定的冗余是可以接受的。维度表应该设计成多层次的,方便下钻维度表中的数字列一些数字类型 应该 依据具体的业务来判断其是否归入维度属性的分类。 比如一些商品的标准价格,可以用于计算以及过滤,分组等功能,这个和事实表中的商品标准价格在意义上是不同的: 事实表中的标准价格表示销售事物的价格,而维度属性则标记为当前情况的标准价格。维度表中的空行,空值对于营销方面的维度表来说:例如优惠券等,因为事实表中可能会存在未参加促销的商品,所以应当在优惠券维度原创 2021-09-04 23:27:39 · 482 阅读 · 0 评论 -
Hive SQL的数仓迁移成Spark SQL,之前的UDF函数怎么办?
前言离线数仓之前的主力工具是hive,有一些处理需要写udf实现,当hive sql迁移成spark sql时。之前的udf函数该怎么办呢,本文为自测并总结。结果写在前面,hive jar包可以直接复用,不用重新编写。环境: spark2.11,hive2.3.6,hadoop2.7.2解决方案首先,hive的元数据一般生产我们都会存在mysql当时,所以设想:spark on hive也是使用hive的元数据,可以看到hive的表,那如果将hive的udf注册成hive的永久函数,spark o原创 2021-01-24 14:17:38 · 665 阅读 · 0 评论 -
数据仓库及维度建模的初步了解
前言笔者在工作刚接触这部分知识的时候,翻阅了各种文档想要到一个比较通俗的理解数据仓库相关的介绍或是理解。之前只是在工作涉及数仓这块的一些业务,理论上有一定的缺失,所以最近准备刷一刷《数据仓库工具箱》这本书,顺便就将读完的一些理解和知识点在简书这边记录下来,算是对自己未来学习计划的一个鼓励和督促。笔者是个渣渣,如有理解上的错误或者偏差,希望大家指点出来,互相学习讨论。本文的目的主要是介绍数据仓库等一些概念或者是一些理解,所以涉及到一些资料,就直接附链接了。。数据仓库和商业智能基本概念的初步了解在原创 2020-12-25 10:35:09 · 945 阅读 · 0 评论