一、数据系统传统功能包括:
提供联机事务处理OLTP的操作性数据库以及提供在线分析处理OLAP的关系型数据仓库。
二、数据集成发展历史
ETL
Neha Narkhede(Confluent创始人,kafka)观点:ETL 已死,而实时流长存;
来自各种操作性数据库的数据会以批处理的方式加载到数据仓库的主模式中,批处理运行的周期可能是每天一次或两次。
这种数据集成过程通常称为抽取 - 转换 - 加载(extract-transform-load,ETL)。
单机数据库->分布式数据库
单服务器的数据库正在被分布式数据平台所取代;除了事务性数据,现在有了类型更多的数据源,比如日志、传感器、指标数据等;流数据得到了普遍性增长,在速度方面比每日的批处理有了更快的业务需求。
这些趋势所造成的后果就是传统的数据集成方式最终看起来像一团乱麻,比如组合自定义的转换脚本、使用企业级中间件如企业服务总线(ESB)和消息队列(MQ)以及像 Hadoop 这样的批