MPP引擎:
面向过去的描述性分析1.0:业务发生了什么,业务为什么会发生
面向未来的预测性分析:告诉企业将要发生什么,市场如何变化,客户的下一步行为是什么,客户的热点是什么
学习内容:深度学习,机器学习,图计算
数据平台:半结构化,非机构化数据
Hadoop:历史数据湖
数据挑战:
- 多个异构数据平台,缺乏统一的企业级视图
- 数据冗余存储,一数多源,存在二义性(数据质量发生问题)
- 平台间数据共享,交换频繁,数据流网状
- 技术路线复杂,增加了开发和运维的工作量
- 集成企业混合数据生态:管理结构化的业务数据,管理数字媒体,半结构化,非结构化数据
- 多种形态,多种时效的数据
现代化数据平台:
构建混合的数据生态
提供多样化的分析能力
支持多元化基础设施
Greenplum
- 满足多种时效的数据需求:数据量大,在有限的时间内,可以把数据加载到gp中去,
提供了外部表接口;支持大量并行,持续化的数据加载(支持文本,csv,xml)
流数据:连续数据,支持断点续传:greenmplum gpserver,可以集成kafka