数据仓库？为什么要分层？

最新推荐文章于 2024-10-11 17:18:02 发布

孙文旭

最新推荐文章于 2024-10-11 17:18:02 发布

阅读量3.5k

点赞数 3

分类专栏： Hive

Hive 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

我们对数据进行分层的一个主要原因就是希望在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：

清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪：简单来讲可以这样理解，我们最终给业务诚信的是一能直接使用的张业务表，但是它的来源有很多，如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。
屏蔽原始数据的异常。
屏蔽业务的影响，不必改一次业务就需要重新接入数据。

##官方定义

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。

这个定义的确官方，但是却指出了数据仓库的四个特点。

##特点

面向主题：数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将被排除掉
集成的：从不同的数据源采集数据到同一个数据源，此过程会有一些ETL操作
随时间变化：关键数据隐式或显式的基于时间变化
信息本身相对稳定：数据装入以后一般只进行查询操作，没有传统数据库的增删改操作

##个人理解

数据仓库就是整合多个数据源的历史数据进行细粒度的、多维的分析，帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

孙文旭 CSDN认证博客专家 CSDN认证企业博客

码龄8年

96: 原创

5万+: 周排名

170万+: 总排名

31万+: 访问

: 等级

3350: 积分

88: 粉丝

313: 获赞

45: 评论

919: 收藏

私信

关注

热门文章

分类专栏

java基础 12篇
MYSQL 11篇
前端 5篇
spring 19篇
springMVC 7篇
ajax 1篇
git 1篇
Linux 16篇
Hadoop 17篇
Hive 23篇
Sqoop 3篇
Flume 5篇
azkaban
redis 5篇
nosql 1篇
分布式 1篇
缓存
HBase 5篇
Spark 10篇
kafka 2篇

最新评论

(干货)【intellij idea】Project Structure 讲解
三尺微命一介书生: 很有帮助，十分感谢
Github 生成SSH秘钥（详细教程）
qq_41968452: 感谢答主教学。可以同时参考Github官方文档辅助理解： https://docs.github.com/en/authentication/connecting-to-github-with-ssh/generating-a-new-ssh-key-and-adding-it-to-the-ssh-agent
Github 生成SSH秘钥（详细教程）
Ravanla: 在命令窗口上输入 ssh -T ssh -T git@github.com 按回车键博主，这里你重复ssh -T了，让我遇到了这个问题“ssh: Could not resolve hostname ssh: Name or service not known”
Github 生成SSH秘钥（详细教程）
大欺诈师: kex_exchange_identification: Connection closed by remote host 这样是正常吗
Github 生成SSH秘钥（详细教程）
*A_@詠桁*: 妙哉

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。