内容都来自机械工业出版社出版的《数据中台——让数据用起来这本书》,做了部分笔记。
第2章 什么是数据中台
数据中台4个核心能力:数据汇聚整合、数据提纯加工、数据可视化服务和数据价值变现。
第5章 数据汇聚联通:打破企业数据孤岛
5.1 数据采集、汇聚的方法和工具
在数据建设过程中有 ETL(Extract-Transforn-load,抽取-转换-存储) 的操作,但在大规模数据场景下,建议采用 ELT 的模式。优秀的汇聚工具:Sdoop、DataX、Canal 等。
5.2 数据交换产品
数据源的类型有:
5.3 数据存储的选择
OLTP 和 OLAP。Greenplum、LibrA??PC Server??HBase 来存储。
第6章 数据开发:数据价值提炼工厂
6.1 数据计算能力的4种类型
批计算:数据吞吐量大、延时高、人机交互少的场景,用 MapReduce、Hive、Spark 等计算框架;流计算:实时流计算,有较强的实效性,用 Flink、Spark Streaming、Storm 等;在线查询:用 Redis、Tair 或 HBase、MySQL 或 ElasticSearch 等;即席分析:用于分析性场景和经验统计???
6.2 三种开发类型
离线开发、实时开发、算法开发。
第7章 数据体系规划
将数据体系分成 4 个数据层:
统一数仓层种涉及到维度表、事实表、粒度等内容。
这一章(第7章)的内容较多较具体,需要细看。
第8章 数据资产管理
数据资产管理在数据中台架构中处于中间位置,介于数据开发和数据应用之间。
数据治理(Data Governance,DG)是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。传统的数据治理内容通常包含数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。
元数据管理是数据治理的核心和基础!
第9章 数据服务体系建设
数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等),生成 API 服务,上层数据应用调用这些 API。
4种常见的数据服务:查询服务、分析服务、推荐服务、圈人服务。
3种常见的数据应用:数据大屏(数据可视化)、智能应用(人工智能)、数据报表(分析计算得到表格图像)。