1 大数据电商数仓项目——数仓概念

数据仓库概念

**数据仓库(Data Warehouse):**为企业决策提供数据支撑,帮助企业改进业务流程、提高产品质量等,同时也提供数据存储、分析、计算作用。
数据仓库的输入数据通常包括:业务数据、用户行为数据、爬虫数据等。

  • 业务数据:通常与MySQL后台产生交互的数据。通常使用sqoop框架。
  • 用户行为数据:记录用户在网站前端所进行的各种活动、行为等的日志记录数据,可进行埋点,跟踪用户行为,分析用户行为心理。通常使用flume框架。
  • 爬虫数据:爬取别的网站的数据,但容易产生侵权等的违法违规问题。

数据输入后一般要进入数据仓库进行相应的数据分析,通常会经过ODS、DWD、DWS、DWT、ADS的几个过程。数据仓库并不是数据的最终目的地,而是为数据最终目的地做好准备。这些准备包括对数据的备份、清洗、聚合、统计、可视化表现等。经过数据分析后,通常我们可以通过数据仓进行报表系统、用户画像、推荐系统、机器学习等数据输出形式。
常用的任务调度框架:Azkaban、Oozie、Airflow、DS。

下一章,我们将介绍项目需求及架构设计的有关内容,开始正式进入项目的前期的需求分析准备以及后期的研发过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值