数据仓库、商业智能及维度建模初步
- 了解数据仓库的技术
实践课的三部分
- 商业的数据仓库 SQL server 微软的产品(使用)
- 开源的架构 hadoop上数据仓库的产品(hive)
- 云数据仓库 DW产品
作业等
- 大作业
- 查询语句的运用
参考资料
- 数据仓库 — 荫蒙(理论性太多,实践太少,不太好)
- 大数据应用与技术丛书 数据仓库工具箱(偏向实践 合适!主要以这本书为主)
- 数据仓库与商业智能宝典 (参考)
- hive实践
决策支持系统的发展历史
-
数据的一致性
- 满足一定的规则,使其满足一致性
- 如:主键、外键
- 满足一定的规则,使其满足一致性
-
层次数据库
- 阿波罗登月计划
-
目前,关系数据库是主流,但是其他数据库并没有消失。如IBM的层次数据库,IMS等。
-
个人计算机/第4代编程语言
- 第1代:机器语言:机器码直接操纵芯片
- 第2代:汇编语言:x86,RISC,CISC
- 第3代:C语言
- 第4代:告诉机器的目的是什么,并不告诉具体的过程:SQL语言
-
DSS : Decision Support System
- 1980:
- 1985:将数据抽取出来之后,在做决策支持
90年代
-
蜘蛛网
-
不足之处:
-
缺乏可信度(原因如下)
- 数据无时基
- 数据算法差异
- 抽取的多层次
- 外部数据问题(还是抽取其他的数据源)
- 无起始公共源
-
生产率问题(原因如下)
- 定位数据并分析
- 为报表编辑数据
- 召集程序员/分析员
-
从数据到信息(原因如下)
- 新人可能不清楚相关数据在哪儿(数据可能会分散到很多地方)
- 各数据库的时长不同(数据保存多久)
-
方法的变迁
- 操作性数据:如插入一条语句
- 结构灵活(多维数据集)
-
-
数据集成
- 如果数据之间有冲突的话,两条记录数据不一致,怎么办?
数据获取与数据分析的区别
-
操作性系统:
- 更快的处理数据
-
DW/BI系统:
- 研究
-
RFID:二战中敌我识别系统,会有脏读、误读
数据仓库与商业智能DW/BI的目标
- 识别和定义跨系统可用:如可能各个系统对男女的0/1定义不同
- 成功的标志是被业务群体接受
- 是可选的,不是必须的(有些简单的决策拍脑袋就可以决定的)
维度建模简介
- 多维数据库种类:
- ROLAP:基于关系数据库的OLAP实现
- MOLAP
- HOLAP