大数据项目之电商数仓-用户行为数据采集

本文介绍了大数据项目中的电商数仓建设,包括数据仓库简介、实时用户行为数据采集需求、系统架构设计、Flume日志采集配置以及Kafka集群的规划。通过Flume进行日志数据捕获,结合Kafka实现高可用和高吞吐的数据传输,确保数据仓库的数据实时性和完整性。
摘要由CSDN通过智能技术生成

数据仓库简介

数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。
在这里插入图片描述

项目需求

  • 实时采集买点的用户行为数据
  • 实现数据仓库的分层搭建
  • 每天定时导入业务数据
  • 根据数据仓库中的数据进行报表分析

技术选型角度: 数据采集传输、数据存储、数据计算、数据查询

系统架构图设计

在这里插入图片描述

系统数据流程设计

在这里插入图片描述

集群资源规划设计

服务器一 服务器二 服务器三
HDFS NameNode、DataNode DataNode DataNode
Yarn NodeManager ResourcemManager、NodeManager NodeManager
Zookeeper Zookeeper Zookeeper Zookeeper
Flume(采集日志) Flume Flume
Kafka Kafka Kafka Kafka
Flume(消费Kafka)
Hive HIve
MySQL MySQL
买点数据的基本格式

                
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值