![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
爱吃龙虾的饼
这个作者很懒,什么都没留下…
展开
-
数据仓库-星型模型和雪花模型
在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。星型模型当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 如图 :星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有...转载 2019-04-17 15:31:26 · 817 阅读 · 0 评论 -
数据仓库-hive总结
什么是hive首先要学习Hive,第一步是了解Hive,Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展性(支持自定义函数)。Hive的构架:Hiv...转载 2019-04-17 18:04:19 · 543 阅读 · 0 评论 -
数据仓库-hive分区表
什么是分区在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区键=键值”。其中需要注意的是分区键的值不一定要基于表的某一列(字段),它可以指定任意值,只要查询的时候指定相应的分区键来查询即可。我们可以对分区进行添加、删除、重命名、清空等操作。因为分区在特定的区域(子目录)下检索数据,它作用同DNMS分区一样,都是为了减少扫描成本。H...转载 2019-04-19 17:01:30 · 1117 阅读 · 0 评论 -
hive-桶表,以及高效的join方式
前面2种的话都是经常会用到,说下第三种 桶 join桶(SMB)物理上,每个桶就是表(或分区)目录里的一个文件。smb的设计是为了解决大表和大表之间的join的。简单的说下她的思想:大表化成小表,map side join 解决。经典的分而治之的思想。对一个表或者一个分区,可以将其划分为更细的数据块,桶。在hive中,分桶的方式采取的是:对列的值进行hash除以桶的数量取余 ;...转载 2019-05-09 16:16:03 · 1179 阅读 · 1 评论 -
hbase-面试题
描述Hbase的rowKey的设计原则. Rowkey长度原则 Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在10~100 个字节, 不过建议是越短越好,不要超过16 个字节。 原因如下: (1)数据的持久化文件HFile 中是按照KeyValue 存储的,如果Rowkey 过长比如100 个 字节,1000 万...转载 2019-05-09 19:30:53 · 454 阅读 · 0 评论