数据仓库与数据挖掘技术——数据仓库的发展,需要数据仓库的理由和数据仓库的三大特点详解
1.数据仓库的发展
- 1980 NCR为Wal-Mart建立了第一个数据仓库
- 1996 IDC调查了62家实现数据仓库的企业,表面数据仓库为企业提供了巨大的收益
- IBM已在数据仓库方面进行了10多年的研究,并发展成商用产品。
- 其它数据库厂商也在数据仓库领域纷纷提出了各自的解决方案
- 相关公司:
- 学术界:
- 国产数据库
-
- 阿里云:
-
- 云原生数据库:PolarDB
-
- 云原生数据仓库:AnalyticsDB
-
- 腾讯:
-
- TDSQL
-
- 华为:
-
- GaussDB——OpenGauss、DWS
-
- 中国人大:
-
- KingBase
-
- 武汉:
-
- 达梦
-
- 天津:
-
- GBase
-
- PingCap:
-
- TiDB
2.Why Data Warehouse 为什么有了传统数据库,还有数据仓库?
- 现在数据量非常大,积累起来压力会非常大,并且在传统的数据库中无法满足利用这些数据产生新的资产(效益)
-
- 比如双十一时,巨大数据量
-
- 从数据中获取所需的信息,并转换为企业的决策和效益
- OLTP传统数据库的操作局限性(OLTP是实时性的数据库,传入数据就快速计算并返回所需要的)
- 数据异构性——数据分析面向的是多个数据库,不止单一一个数据类,遇到的情况会是所用数据库不相同运行系统不同,即软硬件会有差别异构。
数据库发展回顾
- ER模型:实体关系图
1. 大规模数据的产生
- 全世界产生巨大的数据量。
2. 操作性数据库的局限性
- 事务处理以写为主,分析处理以读为主。
3. 异构数据源的共享问题
- 各类数据库产品增加,异构环境增加。为了实现异构环境的整合和共享。
所以急需一个技术架构——数据仓库 Data Warehouse
4. 数据仓库与联邦数据库的异同对比
- 联邦数据库:
-
- 把用户的查询请求进一步转发给底层的数据库
-
- 前端发送Globle query 全局查询
-
- 数据库进一步转换为Local query 本地查询
-
- 中心数据库Federated Database进行翻译,将数据库指令翻译成对应的下层数据库的语言进行操作。
-
- 类似于视图,没有真正的数据。
-
- 更大的意义是作为Globle view 全局视图
-
- 联邦数据库的速度更快。
-
- 联邦数据库网络开销更小,因为都是虚表View视图。
-
- 联邦数据库的数据可以实时更新。
-
- 对于跨国公司而言,联邦数据库运用的更多。
- 数据仓库:
-
- 真正把底层的数据库抽取出来转换加载到中心的数据仓库中
-
- 数据仓库中存储的空间更大,比联邦数据库大得多
-
- 数据仓库的网络开销更大,因为它直接传送的就是大量的真实的数据。
-
- 数据仓库比较难以做到实时更新。
-
- 实际运用中,因为更注重查询的功能,所以数据仓库用的更多。
-
-
- 数据仓库
-
-
-
- ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
-
-
-
- ——集成的
-
-
-
- ——时变的
-
-
-
- ——非易失的
-
- catalog——Meta Data 元数据:
-
- 关于数据的数据
-
- 分为技术元数据(身份证号ID),业务元数据(对字段、业务的含义解释)。
- ETL:
-
- extract transform loading
-
- 提取、转换、记载