《大数据之路-阿里巴巴大数据实践》拆书稿以及读后感

总体分为三个部分
第一部分:数据技术
数据采集,数据同步,离线和实时计算,数据服务以及数据应用
第二部分:数据模型
维度模型设计
第三部分:数据管理
元数据管理,计算管理以及生命周期管理
以上各部分在逻辑上所处的位置如下图可见:

第一部分、数据技术
数据采集与数据同步属于数据仓库的输入手段,数据采集大部分是数据主动触发程序将数据流向数据仓库,大部分的落地方式可以是以server/agent或者通过网络协议直接发送数据。实时性较高; 而数据同步大部分落地方式是数据被动的被抽取程序获取并流向数据仓库。数据同步的方式应用场景多用于离线批量的数据同步。采用远程访问权限,直接将数据提取出来并存入数据仓库。
《大数据之路》这本书中介绍的数据技术内容脑图如下:

本文为《大数据之路-阿里巴巴大数据实践》拆书稿,涵盖数据技术、数据模型和数据管理三个部分。数据技术涉及数据采集、同步、计算与服务;数据模型重点讨论维度建模;数据管理聚焦元数据、计算和生命周期管理。强调数据产品和服务的行业解决方案,以及元数据管理的重要性。
最低0.47元/天 解锁文章
769

被折叠的 条评论
为什么被折叠?



