数据仓库技术及其演变

最新推荐文章于 2024-04-01 21:30:51 发布

dazheng

最新推荐文章于 2024-04-01 21:30:51 发布

阅读量1k

点赞数

分类专栏：数据仓库文章标签：数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dazheng/article/details/46993241

版权

数据仓库专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原因

精细化竞争
- 精准
  - 用户精准定位
  - 列表内容
  - 竞争对手、外部情报
- 速度
  - 客户需求
  - 产品开发
  - 市场投放
- 可用
  - 时间延长
  - 不可用时间减少
  - 强度加大
数据增长
- 来源的多样化
  - 人工操作
  - PC、手机生成
  - 机器生成
- 数据的多样化
  - 结构化、半结构、非结构化数据
  - 数据量增长
    - 每两年翻番
    - 数据单位：G->T->P->E
- 软硬件技术进步，价格降价
  - 需求带来供给
  - 供给带来新需求

总体

与OLTP共用到分离
- 硬件使用方式不同
- 处理能力有限
- 从多处OLTP系统获取数据
- 未来会不会合？
  - Hana等内存数据库
  - 云平台
  - Oracle ExaData一体机
dw->dw2.0
- 原因
  - 历史数据管理
  - 企业精细化竞争需求
- 变化
  - 增加了半结构化、非结构化数据
  - 分交互层、集成层、近线层、离线层
总体-DW架构

这里写图片描述
来自：http://www.oracle.com/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf

总体-DW2.0

这里写图片描述
来自：DW 2.0 – The Architecture for the Next Generation of Data Warehouse

dw3.0什么样？
集中式->分布式->云
- 原因
  - 单机处理能力有限
  - 高可用
  - 应用复杂
- 挑战
  - 多服务器协作
  - 跨服务器数据关联
  - 单机不可靠
  - 云服务的迁移
- 反向于集中式？
- 云是否合适大数据？
结构化数据->半结构化、非结构化数据
- 体量大(Volume)
- 类型多样化(Variety)
- 处理速度快(Velocity)
- 价值密度低(Value)
- 如何高效利用半结构化、非结构化数据？
批处理->实时
- 小时、天、周计算频率到现在的分钟、秒甚至毫秒
- 主要用于决策到用于生产
- 挑战
  - 获取数据
  - 与历史数据集成、一致性、完整性
  - 异常处理
  - 提供高并发实时服务
- 批处理、实时可不可以用一套框架处理？

数据库

SMP->MPP
- SMP代表：oracle、db2、sql server
- MPP代表：teradata、greenplum、netezza
MPP->NoSQL
- 集群扩展能力有限
- 对非结构化数据支持不好
- 引擎较单一
- NoSQL和MPP会不会融合到一起？
RDBMS->专有数据库
- 图数据库、多维数据库
Hadoop
- 优点
  - 较早解决了利用PC服务器扩展到上千台服务器
  - 生态系统发展良好
  - 大量的使用
- 缺点
  - MR效率低
  - 复杂
  - 学习成本高
  - 稳定性较差
Spark
- 优点
  - 速度快
  - 高级API，开发效率高
  - 集成流式处理、数据挖掘、SQL
- 缺点
  - 快速开发中
  - 复杂
大数据框架的发展方向
- 效率
  - 总体效率
  - 单机效率
- 规范
  - SQL
  - 事务
  - JDBC、ODBC
- 稳定、易用
  - 降低安装复杂度
  - 降低维护难度
  - 不可用时间减少
- 大一统VS专业化
  - 大一统带来易使用、易维护、规范化，同时特定应用效率、成果会比较低
  - 专业化带来更专业的处理方式，效率更高，同时部署、维护难度更大
数据库的发展方向
- 大规模横向扩展
- 半结构、非结构化数据支持
- 与大数据架构的配合
数据库配合使用

这里写图片描述

数据库－其他技术

列式存储
- 只扫描用到的列
混合使用多种存储介质
- 磁带、光盘、HDD、SSD、内存
压缩
- CPU换IO，大部分不是时间换空间
分区
Load
Bitmap索引
无主外键
不记日志（弱日志）
预统计（inforbright knowledge grid）
部分信息统计后放入系统表，查询直接走系统表
还有哪些技术可以引入？

Spark是未来吗？

这里写图片描述

ETL

趋势分析->生产应用
批处理->实时处理
粗略->精准
单一类型->多种类型数据同时使用
- 同时使用文本文件、专有格式文件、多种数据库
ETL工具
- 专有工具，独立服务器
- 代表
  - IBM DataStage、Informatica PowerCenter、Pentaho Kettle
- 优点
  - 集成度高
  - 学习门槛低
  - 多种数据源协同工作
- 缺点
  - 复杂问题灵活不够
  - 单独学习
- 演进同数据库路线类似
  - SMP、MPP
  - HA
  - 多种数据源混合使用
ETL-数据仓库
- 直接利用数据仓库的存储与计算能力
- 优点
  - 学习成本低
  - 充分利用资源
  - 实现灵活
- 缺点
  - 必须入库才可操作
  - 调度等需要单独开发
  - 与其他服务争抢资源
基于工具或数据仓库，哪种方式在大数据处理方面占优势？

BI

第三方开发->自服务
- 工具更容易使用
- 用户要求响应时间更短
PC->移动
- 一切前端应用移动化
BI工具
- MOLAP生成Cube文件，需要独立服务器
- 代表
  - IBM cognos、SAP BO、oracle BIEE、tableau
- 优缺点同ETL工具
- 自带数据集市
- 专有格式->通用格式
- 专有服务器->通用服务器
我们需要什么样的BI？

数据挖掘

完整工具->类库
- 工具：SAS、SPSS
- 类库：Apache Mahour、Apache Spark Mllib\ GraphX
专有语言->通用语言
- 专有语言：SAS、R
- 通用：Python
我们如何进行数据挖掘？

硬件

小机+盘阵->PC Server->云
- SMP结构是小型机+盘阵
- MPP也是多台小型机+盘阵
- Hadoop、Spark等使用PC服务器、云
CPU
- 摩尔定律
- 绿色化
HDD->SSD->Memory
- HDD存储在线；磁带存储离线数据
- HDD存储顺序访问、速度慢；随机访问且要求高的用SSD硬盘
- HDD存储顺序访问、速度慢；随机访问且要求高的用SSD硬盘；性能要求极高的用内存
网络100M->1000M->10G->40G->100G
- 目前主流是1000M向10G迁移阶段，机架交换机
- 40G、100G核心交换机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dazheng CSDN认证博客专家 CSDN认证企业博客

码龄19年

44: 原创

13万+: 周排名

163万+: 总排名

21万+: 访问

: 等级

2051: 积分

39: 粉丝

52: 获赞

30: 评论

171: 收藏

私信

关注

热门文章

分类专栏

系统 8篇
hadoop 10篇
DataStage 2篇
数据库 7篇
Go 6篇
读书笔记 5篇
工具 1篇
数据仓库 4篇
NoSQL 2篇
BigData 4篇
框架 1篇
数据挖掘 2篇
生活

最新评论

gRPC vs Thrift
楼仔: 我之前看了一篇RPC框架选型的文章，里面包括GRPC、Thrift、Dubbo、Spring Cloud这4种常用的RPC框架，讲述了每种框架的原理，还有示例，非常适合新手或者进阶的同学学习，希望可以一起学习交流~~ 《RPC框架：从原理到选型，一文带你搞懂RPC》：https://mp.weixin.qq.com/s/ll4nUVB28KpyTMS93xAckQ
ETL DataStage实现
dazheng: 谢谢，还是2009年写的，太老了
Aerospike使用介绍
Nicky Li_Aerospike 回复张立钢OR张练钢: 商用版确实在性能上有很大的提高，您可以关注Aerospike微信公众号：aerospike_cn, 可以和AS官方的技术顾问交流，谢谢！
ETL DataStage实现
写字楼中格子间: 博主厉害啊，作为DS入门非常不错
免费：商业的未来(读书笔记)
uybeg: 哈哈

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。