数据分析架构-图解

该博客详细介绍了数据分析架构,包括HDFS作为数据存储基础,数据聚合层的清洗和聚合,管理平台的任务调度与监控,以及数据源如DB、Flume、Kafka等。数据服务层涵盖数据仓库、数据集市、Hbase、ES&Solr和Hive等,最后讨论了数据应用层的各种场景,如推荐、挖掘、分析和报表系统。
摘要由CSDN通过智能技术生成

 

HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元

数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。

管理平台:任务的调度,元数据的管理,任务的监控报警。

数据源:

  1. DB数据库:来自服务端的数据
  2. Flume:埋点事件数据
  3. API:各个服务接口数据
  4. Kafka:服务消息数据
  5. Kettle:数据壶,数据etl工具,将数据格式化输出
  6. dataX阿里数据同步工具,主要用于各个部门的数据同步任务

ETL任务:数据清洗,抓取,转换的过程,主要处理各个数据传上来的数据,将数据标准化输出到ODS层

数据服务层&tool:数据的高聚合层主要有以下模块,

  1. 数据仓库:全部数据的聚合位置,包括
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值