大数据系统大体可以分成以下四个部分:
1,数据采集层
2,数据计算层
3,数据服务层
4,数据应用层
下图是阿里巴巴大数据系统架构图:
一、数据采集层
数据采集主要分成以下三块数据:
1,Web 端日志
2,App 端日志
3,第三方数据(比如 mysql 增量数据同步)
Web 端和 App 端的日志数据都需要制定各个场景下的埋点规范,用来满足各种通用业务场景下(比如浏览、点击等)的数据分析。
Web 端和 App 端数据采集一般都有各自的埋点 SDK 和对应的埋点管理平台,用来确保埋点数据的规范和准确,第三方数据同步通常会使用一些通用的数据同步工具(如 DataX、Scoop)
数据采