《大数据之路-阿里巴巴大数据实践》拆书稿以及读后感
总体分为三个部分
第一部分:数据技术
数据采集,数据同步,离线和实时计算,数据服务以及数据应用
第二部分:数据模型
维度模型设计
第三部分:数据管理
元数据管理,计算管理以及生命周期管理
以上各部分在逻辑上所处的位置如下图可见:
第一部分、数据技术
数据采集与数据同步属于数据仓库的输入手段,数据采集大部分是数据主动触发程序将数据流向数据仓库,大部分的落地方式可以是以server/agent或者通过网络协议直接发送数据。实时性较高; 而数据同步大部分落地方式是数据被动的被抽取程序获取并流向数据仓库。数据同步的方式应用场景多用于离线批量的数据同步。采用远程访问权限,直接将数据提取出来并存入数据仓库。
《大数据之路》这本书中介绍的数据技术内容脑图如下: