数据仓库

最新推荐文章于 2024-07-13 16:31:49 发布

昱晟

最新推荐文章于 2024-07-13 16:31:49 发布

阅读量174

点赞数 1

分类专栏：大数据文章标签：大数据

大数据专栏收录该内容

0 篇文章 0 订阅

订阅专栏

定义

数据仓库，英文名称Data Warehouse，简写为DW。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

在这里插入图片描述

主题性

不同于传统数据库对应于某一个或多个项目，数据仓库根据使用者实际需求，将不同数据源的数据在一个较高的抽象层次上做整合，所有数据都围绕某一主题来组织。

这里的主题怎么来理解呢？比如对于滴滴出行，“司机行为分析”就是一个主题，对于链家网，“成交分析”就是一个主题。

2.集成性

数据仓库中存储的数据是来源于多个数据源的集成，原始数据来自不同的数据源，存储方式各不相同。要整合成为最终的数据集合，需要从数据源经过一系列抽取、清洗、转换的过程。

3.稳定性

数据仓库中保存的数据是一系列历史快照，不允许被修改。用户只能通过分析工具进行查询和分析。

4.时变性

数据仓库会定期接收新的集成数据，反应出最新的数据变化。这和特点并不矛盾。

如何集成？

不同数据源的集成依靠了ELT

什么是ETL？

ETL的英文全称是 Extract-Transform-Load 的缩写，用来描述将数据从来源迁移到目标的几个过程：

1.Extract，数据抽取，也就是把数据从数据源读出来。

2.Transform，数据转换，把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下，Transform也包含数据清洗，清洗掉噪音数据。

3.Load 数据加载，把处理后的数据加载到目标处，比如数据仓库。
在这里插入图片描述

主流的数据仓库有哪些？

Hive

确切地说，Hive是基于Hadoop的数据仓库工具，可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL，在做查询时将HQL语句转换成MapReduce任务，在Hadoop层进行执行。

在这里插入图片描述

1.HDFS

Hadoop的分布式文件系统，在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。

2.MapReduce

一种针对海量数据的并行计算模型，可以简单理解为对多个数据分片的数据转换和合并。

优势
免费，其他知名商业数据仓库，Oracle、Db2，其中业界中比较出名的Teradata

Teradata

Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台，能够高速处理海量数据，其性能远远高于Hive。

它使得企业可以专注于业务，无需花费大量精力管理技术，因而可以更加快速地做出明智的决策，实现 ROI（投资回报率）最大化。

文章转自 https://blog.csdn.net/bjweimengshu/article/details/79256504

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据仓库

定义数据仓库，英文名称Data Warehouse，简写为DW。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。主题性不同于传统数据库对应于...
复制链接

扫一扫

专栏目录

昱晟

CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

21万+: 周排名

46万+: 总排名

1万+: 访问

: 等级

294: 积分

3: 粉丝

8: 获赞

5: 评论

2: 收藏

私信

关注

热门文章

分类专栏

容器 1篇
数据分析 1篇
后台 4篇
数据库 2篇
网站 1篇
网站优化 1篇
js框架 1篇
VUE框架 3篇
Vue.js 1篇
Python
大数据

最新评论

Kubernetes一主两从
lwicrwon: 从您百度网盘上下的
Kubernetes一主两从
lwicrwon: 为什么说压缩文件损坏
Python时区
昱晟: 这边的话有个pendulum模块推荐给你们哦很好用哦 [code=python] import pendulum [/code]
模板解析(1) 大括号解析
爬虫炫神: 优秀的程序员，逗比的人生。为你点赞。。。。。。。
Numpy
人中鬼谷子: 哇哦，你好腻害哦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。